中文字粒度切分在蒙汉机器翻译的应用

论文摘要

在机器翻译任务中,主流的深度学习算法大多使用词或子词作为基础的语义单元,在词或子词层面学习嵌入表征。然而,词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型,对蒙文进行子词粒度切分,对中文分别进行子词和字粒度切分对比实验。实验结果显示,相比于子词粒度切分,基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升,字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明,字级别的蒙汉翻译模型更能捕捉单元之间的语义联系,提高蒙汉翻译性能。

论文目录

0 引言

1 神经机器翻译模型

1.1 基于LSTM的神经网络翻译模型

1.2 基于Transformer的神经网络翻译模型

2 相关技术

2.1 蒙古文预处理

2.2 中文预处理

2.2.1 词级粒度

2.2.2 子词级粒度

2.2.3 字级粒度

3 实验

3.1 语料库划分

3.2 实验设置

3.3 实验结果

4 总结与未来工作

文章来源

类型: 期刊论文

作者: 苏依拉,高芬,仁庆道尔吉

关键词: 字粒度切分

来源: 中文信息学报 2019年12期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用

单位: 内蒙古工业大学信息工程学院

基金: 国家自然科学基金(61966027,61966028),内蒙古自治区自然科学基金(2016MS0605),内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)

分类号: TP391.2

页码: 54-60

总页数: 7

文件大小: 1230K

下载量: 94

中文字粒度切分在蒙汉机器翻译的应用

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢