论文摘要
在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。
论文目录
文章来源
类型: 期刊论文
作者: 苏依拉,高芬,仁庆道尔吉
关键词: 字粒度切分
来源: 中文信息学报 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 内蒙古工业大学信息工程学院
基金: 国家自然科学基金(61966027,61966028),内蒙古自治区自然科学基金(2016MS0605),内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)
分类号: TP391.2
页码: 54-60
总页数: 7
文件大小: 1230K
下载量: 94
相关论文文献
标签:字粒度切分论文;