基于统计差表与加权投票的高精度剪接位点预测

基于统计差表与加权投票的高精度剪接位点预测

论文摘要

基于机器学习的高精度剪接位点识别是真核生物基因组注释的关键.本文采用卡方测验确定序列窗口长度,构建卡方统计差表提取位置特征,并结合碱基二联体频次表征序列;针对剪接位点正负样本高度不均衡这一情形,构建10个正负样本均衡的支持向量机分类器,进行加权投票决策,有效解决了不平衡模式分类问题. HS~3D数据集上的独立测试结果显示,供体、受体位点预测准确率分别达到93.39%、90.46%,明显高于参比方法.基于卡方统计差表的位置特征能有效表征DNA序列,在分子序列信号位点识别中具有应用前景.

论文目录

  • 1 数据与方法
  •   1.1 数据集
  •   1.2 窗口长度确定
  •   1.3 特征提取
  •   1.4 基于SVM和加权投票策略的分类决策
  •   1.5 评价指标
  • 2 结果
  •   2.1 加权投票结果
  •   2.2 与其他算法的比较结果
  • 3 讨论
  •   3.1 基于卡方统计差表的位置特征的优点
  •   3.2 补充碱基二联体频次的必要性
  •   3.3 采用8 bp/20 bp窗口长度的优势
  • 4 结论
  • 文章来源

    类型: 期刊论文

    作者: 曾莹,陈渊,袁哲明

    关键词: 剪接位点,位置特征,卡方统计差表,加权投票,支持向量机

    来源: 生物化学与生物物理进展 2019年05期

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 湖南农业大学湖南省农业大数据分析与决策工程技术研究中心,湖南农业大学东方科技学院

    基金: 国家自然科学基金(61701177),湖南省自然科学基金(2018JJ3225),湖南省教育厅科学研究项目(17A096)资助~~

    分类号: Q811.4

    DOI: 10.16476/j.pibb.2018.0267

    页码: 496-503

    总页数: 8

    文件大小: 1411K

    下载量: 45

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于统计差表与加权投票的高精度剪接位点预测
    下载Doc文档

    猜你喜欢