论文摘要
基于机器学习的高精度剪接位点识别是真核生物基因组注释的关键.本文采用卡方测验确定序列窗口长度,构建卡方统计差表提取位置特征,并结合碱基二联体频次表征序列;针对剪接位点正负样本高度不均衡这一情形,构建10个正负样本均衡的支持向量机分类器,进行加权投票决策,有效解决了不平衡模式分类问题. HS~3D数据集上的独立测试结果显示,供体、受体位点预测准确率分别达到93.39%、90.46%,明显高于参比方法.基于卡方统计差表的位置特征能有效表征DNA序列,在分子序列信号位点识别中具有应用前景.
论文目录
文章来源
类型: 期刊论文
作者: 曾莹,陈渊,袁哲明
关键词: 剪接位点,位置特征,卡方统计差表,加权投票,支持向量机
来源: 生物化学与生物物理进展 2019年05期
年度: 2019
分类: 基础科学
专业: 生物学
单位: 湖南农业大学湖南省农业大数据分析与决策工程技术研究中心,湖南农业大学东方科技学院
基金: 国家自然科学基金(61701177),湖南省自然科学基金(2018JJ3225),湖南省教育厅科学研究项目(17A096)资助~~
分类号: Q811.4
DOI: 10.16476/j.pibb.2018.0267
页码: 496-503
总页数: 8
文件大小: 1411K
下载量: 45