论文摘要
多词组是一种优化的语言复用粒度.,由于一些非通用语言的多词组与词之间缺乏显式形态边界,导致多词组自动识别困难.针对马来语领域多词组识别问题,提出一种基于自然标注的无监督抽取与聚类算法.算法首先采用空格符二值分类实现变长马来语多词组抽取;然后将文档级的自然类别标注迁移到多词组级类别聚类;最后过滤掉通用多词组,萃取多个领域多词组数据集.在272 783马来语文本文档数据集上的实验结果表明,提出的算法不但能够精准地抽取多词组,而且能够高效地实现多词组领域词典聚类.
论文目录
文章来源
类型: 期刊论文
作者: 王琳,刘伍颖
关键词: 无监督识别,多词组,领域词典,自然标注,马来语
来源: 中国科学技术大学学报 2019年07期
年度: 2019
分类: 基础科学,哲学与人文科学,信息科技
专业: 外国语言文字,计算机软件及计算机应用
单位: 上海外国语大学贤达经济人文学院,广东外语外贸大学语言工程与计算实验室
基金: 上海市社科规划项目(2019BYY028),国家语委重点项目(ZDI135-26),广东省自然科学基金(2018A030313672),广州市人文社科重点研究基地重点项目(2017-IC-02)资助
分类号: H631.1;TP391.1
页码: 517-523
总页数: 7
文件大小: 594K
下载量: 32