当前位置:网站首页>Cross-species regulatory sequence activity prediction
Cross-species regulatory sequence activity prediction
2022-08-04 07:08:00 【与光i】
摘要
文章使用深度神经网络来学习人类和小鼠极影数据的序列,并提高了对保留序列的基因表达预测准确性。同时使用迁移学习,使得小鼠调节模型能够分析与分子表型、疾病相关的人类遗传变异。
模型
总体结构

图1
如图1所示。
首先先将人类和小鼠的DNA序列转化为one-hot编码表示,为四行二进制矩阵。之后输入到7个迭代的卷积块和最大池化层中,用于学习128bp中的序列信息。
卷积块包括如下操作:
- 宽带为5的卷积(在第一层为15)
- 归一化
- GELU激活函数
- 宽度为2的最大池化
之后使用11个扩张残差块(使用扩张卷积,每次将扩张率增加1.5倍),和输入叠加,用于在长序列中共享信息。
扩张残差块包括如下操作:
- GELU激活函数
- 宽度为3,扩张率为d,过滤器数量为384的扩张卷积
- 归一化
- GELU激活函数
- 宽度为1,过滤器数量为768的卷积
- 归一化
- 0.3的dropout
- 和输入相加
最后应用线性变换来预测人类或小鼠的数千个调节活动信号轨迹。除最后一层外,所有参数在物种之间共享。
输入输出
输入:6956个来自于encode和fantom的人和小鼠细胞的131072( = 2 17 =2^{17} =217个功能基因序列
输出:预测TF结合、DNA可访问性和转录类型
研究结论
多基因组训练对泛化准确性的影响
训练了三个独立的模型:人类和小鼠联合训练,单独训练人类,单独训练小鼠。使用相同的模型架构和超参数。每个模型训练30个epoch
结论:
- 联合训练提⾼了 94% 的⼈类 CAGE 和 98% 的⼩⿏ CAGE 数据集(⼆项式检验 p 值 1e-16 和1e-16)的-16)的测试机准确度,确度,将分别用于人类和小鼠的平均 Pearson 相关性提⾼了 0.13 和 0.26
- 联合训练提高了 DNase、ATAC 和ChIP的预测,但幅度较小
- 55% 的⼈类和 96% 的⼩⿏数据集的平均测试集相关性增加
调节序列活动模型能够跨物种转移
结论:经过训练,能够预测以恶物种的调节性序列活动模型,也能够对来自另一个物种的匹配样本做出准确有效的预测。
方法:
选择人类和小鼠的小脑、肝脏和CD4+细胞,从训练集之外的所有人类基因的转录起始位点提取CAGE基因表达测量了,并计算对人类和小鼠的这种组织和细胞类型的预测。
在人类基因TSS中,观察到小鼠预测与人类观察到的信号的平均跨物种预测精度为 0.73,而人类预测与人类观察到的信号的相关性为 0.75。使用CAGE数据集的平均值对TSS数据进行归一化,对于匹配样本,观察到对于匹配样本的人类数据的小鼠预测,标准化信号的 Pearson 相关性仍然很高。 相反,与来自不同组织/细胞类型的数据相比,标准化预测导致负相关(图 3c)。 因此,这些模型已经学习了超出基线水平的组织和细胞类型特异性,并且能够跨物种转移这些知识。
小鼠训练模型能够阐明人类遗传变异
在小鼠数据上训练的模型允许人们预测:如果两个人类等位基因存在于小鼠细胞的调节环境中,它们的行为方式之间有何差异。
小鼠训练模型突出了与人类神经发育疾病相关的突变
对自闭症患者家庭进行全基因组测序,能够检测到这些后代平均有67个从头突变,其启动子略有富集。通过变异效应的预测可以区分自闭症病例和其未受影响的兄弟姐妹。
应用该模型预测每个从头突变将如何影响 357 只小鼠 CAGE 全身组织和细胞类型的信号,病例组与对照变体组相比显著多177个阴性预测。
边栏推荐
- entity、domain、vo、pojo的区别与联系
- 解决循环依赖import cycle not allowed的最佳解决办法
- 西门子PLC1200与fanuc机器人进行profibus通讯
- 玩转TypeScript对象、对象作为参数进行函数传递、接口和内置对象[无敌态]
- Distributed Computing Experiment 4 Random Signal Analysis System
- LLVM编译技术应用分析
- 给Unity Behavior Designer(Unity行为树) 的Can See Object 画圆锥辅助图
- 【并发】概念
- CSDN21天学习挑战赛——day1 正则表达式大总结
- 有趣的USB接口和颜色分类
猜你喜欢
随机推荐
form表单提交到数据库储存
关于常用状态码4XX提示错误
登录拦截实现过程
MySQL内存淘汰策略
小程序如何使用订阅消息(PHP代码+小程序js代码)
CSDN21天学习挑战赛——day1 正则表达式大总结
10个程序员可以接私活的平台和一些建议,赚麻...
力扣每日一题-第47天-15. 三数之和
【并发】概念
likeshop单商户高级版企业源码发布了新的版本1.8.1
MySQL BIGINT 数据类型
FCN - the originator of semantic segmentation (based on tf-Kersa reproduction code)
Mysql insert on duplicate key 死锁问题定位与解决
Triton部署mmdeploy导出的TensorRT模型失败篇
函数柯里化详解
MySQL 8.0.29 详细安装(windows zip版)
千古第一文人苏轼的众CP
GBase 8c中怎么查询数据库配置参数,例如datestyle。使用什么函数或者语法呢?
【愚公系列】2022年07月 Go教学课程 027-深拷贝和浅拷贝
leetcode 22.8.1 二进制加法








