基于遗传算法的文本特征选择

基于遗传算法的文本特征选择

论文摘要

文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。

论文目录

  • 1 相关研究
  •   1.1 文档频率-逆文档频率方法
  •   1.2 卡方统计值
  •   1.3 支持向量机
  •   1.4 遗传算法
  • 2 基于遗传算法的特征选择
  •   2.1 初始种群
  •   2.2 适应度函数
  •   2.3 选择
  •   2.4 交叉
  •   2.5 变异
  • 3 实验与分析
  •   3.1 实验数据
  •   3.2 实验参数
  •   3.3 实验结果与分析
  • 4 结论
  • 文章来源

    类型: 期刊论文

    作者: 刘成锴,王斌君,吴勇

    关键词: 文本分类,文本特征,特征降维,遗传算法

    来源: 科学技术与工程 2019年33期

    年度: 2019

    分类: 工程科技Ⅱ辑,信息科技

    专业: 计算机软件及计算机应用,自动化技术

    单位: 中国人民公安大学信息技术与网络安全学院

    分类号: TP391.1;TP18

    页码: 302-307

    总页数: 6

    文件大小: 638K

    下载量: 236

    相关论文文献

    标签:;  ;  ;  ;  

    基于遗传算法的文本特征选择
    下载Doc文档

    猜你喜欢