音字转换论文_纪兴光

导读:本文包含了音字转换论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:维吾尔,人名,模糊,字频,拼音,语料库,模型。

音字转换论文文献综述

纪兴光[1](2019)在《基于神经网络的带有拼写纠错功能的音字转换模型》一文中研究指出随着移动端设备的高速普及,人们越来越离不开智能设备完成沟通和交流。拼音输入法作为人们日常生活中的重要工具,然而在输入法的使用过程中会不可避免的产生错误输入,针对拼音的拼写纠错极大的影响了输入法用户的使用体验。本文首先对该项目所用到的关键技术进行了分析研究。针对输入法中拼音拼写纠错问题的结构特点,基于Seq2seq模型提出了结合外部信息的神经网络拼音拼写纠错模型。根据键盘上按键转移概率和输入法输入输出之间的对齐关系,改进了纠错模型的损失函数,实现对模型中Attention机制的有监督训练,提升了模型的纠错能力。此外,针对输入法中丰富的先验知识,提出了将先验知识与神经网络相结合的方式对纠错模型进行优化。通过Autoencoder方法获得用户点击位置的向量表达,改进神经网络的输入层,使纠错模型可以有效利用点击位置信息,提升对用户误触导致的错误输入的纠错能力。此外,纠错模型的Decoder部分采用了 Beam Search算法,输出是若干个拼音候选组成的集合。针对集合中的拼音候选存在排序不合理的现象,提出了基于拼音的语言统计特性的重排序模型,使用改进的pairwise算法对拼音候选进行打分,将高质量拼音候选排到候选集合前列,进一步提高了纠错结果的准确性。最后,结合上述模型和算法实现了具有纠错功能的拼音输入法系统,该系统包括用户输入的纠错模型和基于隐马尔可夫模型的汉字向拼音转换模型。最终对整个系统进行了搭建和验证。结果表明,本文提出的基于神经网络的具有纠错功能的拼音输入法模型功能完备且具有强大的纠错能力。本项目中对模型进行的优化和改进能够有效提升输入法用户使用体验,具备实际应用价值。(本文来源于《北京邮电大学》期刊2019-05-31)

热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉[2](2017)在《基于模糊匹配与音字转换的维吾尔语人名识别》一文中研究指出维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。(本文来源于《清华大学学报(自然科学版)》期刊2017年02期)

热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉[3](2015)在《一种基于模糊匹配与音字转换的维吾尔语人名识别方法》一文中研究指出维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂。尤其是对于维吾尔语中的人名,由于来源差别巨大,识别难度很高,目前为止,还未出现一套成熟的维吾尔语人名识别工具。对此,本文将重点研究维吾尔语中人名的构成特点,并提出有效的识别方法。根据大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%。因此,本文分别针对维吾尔语中维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,我们提出基于字母的模糊匹配识别方法;针对汉族人名,我们借助机器翻译思想提出基于音字转换的识别方法。实验结果表明,我们的方法识别维吾尔族人名能够达到91.84%的F1值,识别汉族人名能够达到95.86%的F1值,从而证明了本方法的有效性。(本文来源于《第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集》期刊2015-10-25)

热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉[4](2015)在《一种基于模糊匹配与音字转换的维吾尔语人名识别》一文中研究指出维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂。尤其是对于维吾尔语中的人名,由于来源差别巨大,识别难度很高,目前为止,还未出现一套成熟的维吾尔语人名识别工具。根据大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%。因此,本文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,我们提出基于字母的模糊匹配识别方法;针对汉族人名,我们借助机器翻译思想提出基于音字转换的识别方法。实验结果表明,我们的方法识别维吾尔族人名能够达到91.84%的F1值,识别汉族人名能够达到95.86%的F1值,从而证明了本方法的有效性。(本文来源于《第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集》期刊2015-10-25)

朱瑞[5](2015)在《音字智能转换 “合议”全程留痕》一文中研究指出本报讯 近日,上海市第一中级人民法院经过近一年的探索试点,正式推出“合议庭评议音字转换智能支持系统”。该系统通过“音字”智能转换,确保“合议”全程留痕、名副其实。 所谓“合议庭评议音字转换智能支持系统”,是上海一中院研发的一款辅助记录、(本文来源于《人民法院报》期刊2015-09-14)

吕绍华[6](2015)在《音字转换系统关键技术研究与实现》一文中研究指出音字转换是指由计算机自动地将拼音串转换为汉字串。音字转换技术是中文信息处理领域一个重要的研究方向,在语音识别、中文拼音输入中都有广泛地应用,是一个极具挑战性的问题。音字转换系统的关键技术包括语言模型、拼音串的切分和解码算法。本文重点分析了语言模型训练过程中出现的零概率问题,研究并实现了叁种数据平滑的方法,并对叁种算法的性能作了测试,实验表明使用这叁种平滑方法训练的语言模型信息熵在5-7之间,效果相当。为了解决汉语长距相依的问题,本文对中文高频词串(CFS)提取算法作了改进,以期解决CFS的层次不足和剔除语意不明CFS的问题。使用本文的改进算法和基于字符串切分度的CFS提取算法分别训练语言模型,并应用到音字转换的实验中,实验表明前者转换的正确率优于后者。针对jieba分词工具没有考虑到词与词之间的上下文关系,对jieba分词工具进行了修改,增强了分词的效果。基于规则的拼音串切分方法不能很好的处理切分歧义的问题,为此引入了知识库,在此基础上修改了切分方法,并将切分的正确率提高了0.9%。本文设计和实现了音字转换系统,在普通的音字转换系统的基础上增加了学习模块,使系统能够学习用户的输入习惯,提高了用户的体验。在使用Viterbi算法解码的情况下,转换的正确率达到了90.3%。(本文来源于《电子科技大学》期刊2015-03-01)

李鑫鑫,王轩,姚霖,关键[7](2014)在《基于级联重排序的汉语音字转换》一文中研究指出N元语言模型是解决汉字音字转换问题最常用的方法.但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束.我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征.实验结果显示,两种方法都能有效地提高词N元语言模型的性能.而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.(本文来源于《自动化学报》期刊2014年04期)

李清[8](2010)在《中文文—语转换系统中多音字问题研究》一文中研究指出计算机文-语转换技术(Text-to-Speech,简称TTS)指利用计算机程序将既定的可视文本信息转换成语音的过程。这一系统广泛地涉及了语言学、语音学、计算机编程、数字信号处理等领域,是一门综合了多学科多领域的技术项目。我们接触的拼音输入法、图书拼音排序检索、各种音序排序、汉语的语音教学软件的运用、各类电子产品的语音朗读功能的改进、自动介绍或者答复系统以及盲人用品和儿童玩具的开发、甚至包括机器人制造以及未来语音操控系统在各领域的实现,都离不开这一技术手段。作为一项高度要求理论性与实用性相结合的技术,TTS在产生之初就备受各学科学者的高度重视。如何提高TTS系统中语音合成的流畅度、自然度与准确率成为这一技术必须关注的焦点。其中,汉语多音字读音自动标注的准确率更成为文-语转换技术的难点之一。本文的研究对象在于,确定《现代汉语词典》(第5版)(以下简称《现汉》)中921个多音字及其音项在CCL现代汉语语料库中的语用频率,以字频为基础,进而从语言学理论的角度出发,为TTS处理中多音字问题的解决提出一种新思路。文章的主要内容包括叁个部分,第一部分,对《现汉》中多音字的数目进行统计,确定以921个多音字为研究对象,并对每个多音字的词性及进行统计。第二部分,在CCL现代汉语语料库中对这921个多音字的字频进行语用频率统计。根据统计结果和累计频率的计算,最终将这些多音字分出高、中、低叁个频级。对各频级的多音字每个音项的使用频率进行统计,分出高频音、低频音两个音级,对在语料库中只占1%的低频多音字采用常读音默认的方法进行处理。第叁部分,对中、高频多音字进行分类,综合运用多音节词排除法、词性确定法和附带常用多音字词库法等方法进行处理。对那些各音项语用频率相当、词性区别不明显的可独立成词的多音字,则逐条梳理其所有语料,总结其出现的语境,为多音字构建规则。(本文来源于《河北大学》期刊2010-06-30)

张顺昌,孙乐[9](2009)在《音字转换中分层解码模型的研究与改进》一文中研究指出音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。(本文来源于《中文信息学报》期刊2009年06期)

张强[10](2008)在《音字转换评测体系的研究与实现》一文中研究指出音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音输入法,已经经历了叁个阶段的发展:单字输入、词语输入和整句输入。拼音输入法发展到现在已经成为了中文输入技术的主流,占据了输入法市场的巨大份额,各种拼音输入法也百花齐放。作为中国第一个语句级拼音输入法的诞生地,我们有责任为科学评价音字转换系统和拼音输入法建立完善的体系,从而规范拼音输入法的发展,这也是本文研究的内容和目的。本文首先介绍了音字转换和汉字拼音输入技术的发展现状以及目前主流拼音输入法的代表,分析了主要的算法以及技术的难点。第二章提出了评测体系的整体框架,包括准确性评测和功能性评测两个方面,其中定义了准确性评测的几个可以量化的指标,包括对于学习能力的评测,适合于用机器自动评测。而功能性方面的指标无法量化,需要根据评价原则人工进行评测。第叁章和第四章主要围绕准确性评测讨论了平台构建的几个阶段和算法。首先我们需要得到评测用的平衡语料,随后进行分词,然后把语料标注拼音从而得到平台的输入。评测的平台就可以根据输入文件来模拟键盘输入,最后得到转换后的结果文件,通过与原始语料的对比就能计算得到准确性指标。在这个过程中,需要用到分词算法、标注算法以及字符串匹配算法等。最后一章通过系统实现得到了评测结果,在结果分析的基础上,我们总结出一个好的输入法应该具备的特点,那就是在保证准确性的同时也要考虑到各项能方便用户输入的特色和功能,确保良好的用户体验。(本文来源于《哈尔滨工业大学》期刊2008-12-01)

音字转换论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

音字转换论文参考文献

[1].纪兴光.基于神经网络的带有拼写纠错功能的音字转换模型[D].北京邮电大学.2019

[2].热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉.基于模糊匹配与音字转换的维吾尔语人名识别[J].清华大学学报(自然科学版).2017

[3].热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉.一种基于模糊匹配与音字转换的维吾尔语人名识别方法[C].第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集.2015

[4].热合木·马合木提,于斯音·于苏普,张家俊,宗成庆,艾斯卡尔·艾木都拉.一种基于模糊匹配与音字转换的维吾尔语人名识别[C].第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集.2015

[5].朱瑞.音字智能转换“合议”全程留痕[N].人民法院报.2015

[6].吕绍华.音字转换系统关键技术研究与实现[D].电子科技大学.2015

[7].李鑫鑫,王轩,姚霖,关键.基于级联重排序的汉语音字转换[J].自动化学报.2014

[8].李清.中文文—语转换系统中多音字问题研究[D].河北大学.2010

[9].张顺昌,孙乐.音字转换中分层解码模型的研究与改进[J].中文信息学报.2009

[10].张强.音字转换评测体系的研究与实现[D].哈尔滨工业大学.2008

论文知识图

传统的音字转换分层结构音字转换模块结构图改进后音字转换分层结构示意图一5音字转换模块改进后的流程图改进后分层模型音字转换准确率...结果比对Figure9Comparisonofresults输...

标签:;  ;  ;  ;  ;  ;  ;  

音字转换论文_纪兴光
下载Doc文档

猜你喜欢