基于序列信息对真核复制起始位点预测

基于序列信息对真核复制起始位点预测

论文摘要

DNA复制是保持亲代到子代遗传信息稳定传递的关键步骤,是生物遗传的基础。复制起始于基因组的特殊位点,称为复制起始位点(ORIs)。复制起始位点对DNA复制的起始进行调控,在复制机制中扮演着十分重要的角色。研究复制起始位点不仅有助于理解细胞分裂周期和基因的表达调控,而且在遗传病的新药研究中会提供新的策略。因此,对DNA复制起始位点的准确识别将为DNA复制机制的探究及药物研发提供十分重要的线索。目前,众多湿实验技术能够精确捕获复制起始位点的位置,但庞大的数据量需要较长的周期,还需要投入大量的经费,因此,开发基于计算机的研究方法是很有必要的。而与此同时,生物信息学手段已经成功应用于功能基因组学和蛋白质组学领域,并随着三代测序产生的爆炸性数据量,使得采用计算机方法识别复制起始位点成为可能。本文中研究中,我们构建了第一个多物种真核生物复制起始位点的集成预测器ORi-Pred。首先,从数据库DeOri和OriDB获取了人类、小鼠、果蝇、拟南芥、酿酒酵母、毕赤酵母、裂殖酵母和乳酸克鲁维酵母八个真核生物的DNA复制起始位点数据集,基于支持向量机(SVM)五折叠交叉检验分别用k-mer、理化性质矩阵、二进制编码三种特征提取算法表征序列并比较结果,对最佳特征提取算法获得的特征用F-score进行特征筛选,并基于最佳特征集将SVM与其他算法比较获得每个物种的最佳分类模型。由于酿酒酵母具有作为模式生物的独特优势,前人在研究真核DNA复制起始位点时多将其作为实验研究对象,因此提升模型对酿酒酵母复制起始位点的预测精度对实验人员具有重要的指导意义。基于此,我们在现有的准确率为84.83%的酿酒酵母复制起始位点分类模型的基础上,使用二型伪核苷酸方法提取序列特征,通过两步特征筛选策略,最终获得了准确率为88.53%的酿酒酵母最佳分类结果。综上所述,人类、小鼠、果蝇、拟南芥、酿酒酵母、毕赤酵母、裂殖酵母、乳酸克鲁维酵母八个物种的最佳模型的准确率和ROC曲线下的面积分别为88.40%和0.947、85.03%和0.909、87.38%和0.946、82.64%和0.870、88.53%和0.905、90.45%和0.948、93.99%和0.978、83.82%和0.890。最后为了方便相关领域研究者使用,我们基于八个物种的最佳分类模型构建了一个多物种真核生物复制起始位点集成预测器ORi-Pred(http://lin-group.cn/server/ORI-Pred/)。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 生物信息学
  •   1.2 DNA复制起始位点
  •   1.3 复制起始位点的研究现状
  •   1.4 本文主要研究内容及结构
  • 第二章 基准数据集
  •   2.1 常用数据库
  •     2.1.1 DeOri
  •     2.1.2 OriDB
  •     2.1.3 DNAReplication
  •     2.1.4 ReplicationDomain
  •     2.1.5 SGD
  •   2.2 基准数据集的构建
  •   2.3 小结
  • 第三章 特征描述与筛选
  •   3.1 特征提取算法
  •     3.1.1 k-mer
  •     3.1.2 理化性质矩阵
  •     3.1.3 单核苷酸二进制编码
  •     3.1.4 二型伪核苷酸组分
  •   3.2 特征筛选方法
  •     3.2.1 F-score
  •     3.2.2 mRMR
  •     3.2.3 增量特征选择法
  •   3.3 小结
  • 第四章 模型构建与评估
  •   4.1 分类算法
  •     4.1.1 支持向量机(SVM)
  •     4.1.2 随机森林(RF)
  •     4.1.3 贝叶斯网络(BN)
  •     4.1.4 逻辑回归(LR)
  •     4.1.5 Weka软件介绍
  •   4.2 模型评估方法
  •     4.2.1 交叉验证方法
  •     4.2.2 常用评估参数
  •   4.3 小结
  • 第五章 结果分析与讨论
  •   5.1 特征提取
  •   5.2 特征筛选
  •   5.3 分类算法比较
  •   5.4 对酿酒酵母ORIs进一步研究
  •     5.4.1 序列模体分析
  •     5.4.2 二型PseKNC算法参数优化
  •     5.4.3 两步特征筛选
  •     5.4.4 与发表文章比较
  •     5.4.5 在酿酒酵母全基因组中的运用
  •   5.5 跨物种检验
  •   5.6 多物种在线集成预测器介绍
  •   5.7 小结
  • 第六章 总结与展望
  •   6.1 本文工作总结
  •   6.2 未来工作展望
  • 致谢
  • 参考文献
  • 攻读硕士期间取得的研究成果
  • 文章来源

    类型: 硕士论文

    作者: 刀福英

    导师: 林昊

    关键词: 真核生物,复制起始位点,生物信息学,伪核苷酸组分,交叉检验,支持向量机

    来源: 电子科技大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 电子科技大学

    分类号: Q78

    总页数: 60

    文件大小: 2826K

    下载量: 50

    相关论文文献

    • [1].利用蛋白质同源性搜索检验细菌预测基因的起始位点[J]. 食品与生物技术学报 2012(08)
    • [2].我国科学家揭示全新DNA复制起始位点调控机制[J]. 石河子科技 2020(02)
    • [3].DNA复制起始位点的识别机制研究[J]. 生命的化学 2020(05)
    • [4].原核基因翻译起始位点预测的新方法(英文)[J]. 生物化学与生物物理进展 2008(11)
    • [5].小麦储藏过程中温度对劣变起始位点及生理酶活性的影响[J]. 食品与机械 2015(02)
    • [6].猪繁殖与呼吸综合征病毒核衣壳蛋白翻译起始位点的研究[J]. 畜牧兽医学报 2010(07)
    • [7].目标起始密码子多态性(SCoT):一种基于翻译起始位点的目的基因标记新技术[J]. 分子植物育种 2009(03)
    • [8].外刊[J]. 华东科技 2015(05)
    • [9].人乳头状瘤病毒复制机制的研究进展[J]. 生命科学 2010(08)

    标签:;  ;  ;  ;  ;  ;  

    基于序列信息对真核复制起始位点预测
    下载Doc文档

    猜你喜欢