马来语领域多词组无监督识别

马来语领域多词组无监督识别

论文摘要

多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类.

论文目录

  • 0 引言
  • 1 相关研究
  • 2 无监督架构
  • 3 算法
  • 4 实验
  •   4.1 多词组抽取结果讨论
  •   4.2 多词组聚类结果讨论
  • 5 结论
  • 文章来源

    类型: 期刊论文

    作者: 王琳,刘伍颖

    关键词: 无监督识别,多词组,领域词典,自然标注,马来语

    来源: 中国科学技术大学学报 2019年07期

    年度: 2019

    分类: 基础科学,哲学与人文科学,信息科技

    专业: 外国语言文字,计算机软件及计算机应用

    单位: 上海外国语大学贤达经济人文学院,广东外语外贸大学语言工程与计算实验室

    基金: 上海市社科规划项目(2019BYY028),国家语委重点项目(ZDI135-26),广东省自然科学基金(2018A030313672),广州市人文社科重点研究基地重点项目(2017-IC-02)资助

    分类号: H631.1;TP391.1

    页码: 517-523

    总页数: 7

    文件大小: 594K

    下载量: 32

    相关论文文献

    标签:;  ;  ;  ;  ;  

    马来语领域多词组无监督识别
    下载Doc文档

    猜你喜欢