论文摘要
长非编码RNA(LncRNA)是一类长度超过200个核苷酸的非编码RNA分子。它们在细胞发育和代谢中具有重要功能,能够调节细胞周期、转录和翻译等过程。LncRNA的功能与其所在的亚细胞位置有密切的关系。并且研究表明LncRNA的异常表达与几种类型的癌症有关,如:阿茨海默病等。因此,研究LncRNA的功能对疾病的治疗和生命科学的发展有重要的意义。通过对其定位信息的研究可以提供对其细胞功能的了解。尽管现在的生物化学实验设备先进,可以测量出LncRNA在细胞中的定位,但它们的实验费用较高而且周期较长。因此,开发一个用于快速有效地鉴定LncRNA分子在亚细胞位置的生物信息学工具是重要且必要的。本文基于LncRNA序列信息,开发了一个名为“iLoc-lncRNA”的生物信息学工具。从RNALocate数据库中提取所有含有动物LncRNA亚细胞位置信息的序列,共计1360条LncRNA序列,并通过数据预处理方法对原始数据集进行优化,经CD-HIT聚类算法处理后,获得了655条去冗余的LncRNA序列。而后,基于伪核苷酸方法和核苷酸k-mer片段方法提取LncRNA序列的核苷酸组分信息、长程序列顺序信息和8-联体核苷酸频率信息。为了剔除特征中的冗余或噪声信息,我们采用了最小冗余最大相关、方差分析和二项分布策略对提取的特征进行排序进而确定最优特征子集。然后,利用支持向量机构建模型,通过对不同特征提取方法和优化策略构建的模型预测性能的比较。最终,选择了利用二项分布方法将8联体核苷酸片段特征结合到一般PseKNC(伪核苷酸组成)中的策略来预测LncRNA的亚细胞位置。使用jackknife检验方法进行准确度检验,该预测工具在可靠的基准数据集上预测的准确度为86.72%,比现有最好的预测工具高出20%以上。最后,为了方便大家使用,我们构建了一个在线服务预测器(网址为http://www.lin-group.cn/server/iLoc-LncRNA/),以供相关研究者使用,并且根据数据量的不同提供了可以本地使用的工具包。
论文目录
文章来源
类型: 硕士论文
作者: 苏振东
导师: 丁辉
关键词: 亚细胞定位,伪核苷酸特征,二项分布,支持向量机
来源: 电子科技大学
年度: 2019
分类: 基础科学
专业: 生物学,生物学,生物学
单位: 电子科技大学
分类号: Q811.4;Q522
总页数: 47
文件大小: 3615K
下载量: 76