基于word2vec和CNN的短文本聚类研究

基于word2vec和CNN的短文本聚类研究

论文摘要

文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional NeuralNetworks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方法可以有效提升短文本聚类的准确性。

论文目录

  • 0 引言
  • 1 短文本聚类过程
  •   1.1 word2vec词向量模型
  •   1.2 CNN短文本特征表示模型
  •     1.2.1 输入层
  •     1.2.2 卷积层
  •     1.2.3 池化+连接层
  •   1.3 文本相似度的计算
  •   1.4 文本聚类
  • 2 文本聚类实验结果与分析
  •   2.1 实验数据与评价指标
  •     2.1.1 实验数据
  •     2.1.2 实验环境
  •     2.1.3 评价指标
  •   2.2 实验结果分析
  • 3 结语
  • 文章来源

    类型: 期刊论文

    作者: 杨俊峰,尹光花

    关键词: 短文本聚类,特征提取

    来源: 信息与电脑(理论版) 2019年24期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用,自动化技术

    单位: 中原工学院计算机学院

    分类号: TP391.1;TP18

    页码: 20-22

    总页数: 3

    文件大小: 2002K

    下载量: 521

    相关论文文献

    标签:;  ;  

    基于word2vec和CNN的短文本聚类研究
    下载Doc文档

    猜你喜欢