导读:本文包含了多序列对齐论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:序列,中文,最小,模型,距离,编辑,语言。
多序列对齐论文文献综述
陈圣昌[1](2015)在《基于多序列对齐和统计语言模型的多中文地址识别结果融合》一文中研究指出在过去的几十年间,邮件自动分拣系统已经在中国得到广泛的应用,其中分拣技术已经从基于邮编识别发展到基于地址识别。然而,使用识别器对邮件上地址进行识别是很容易发生错误,尤其当图像的分辨率偏低或者包含很多噪声的情况下更容易发生识别错误。总的来说,识别结果的错误可以分为叁类:1)字符分割正确,但是识别器在识别单个字符时发生错误;2)字符分割错误导致识别结果错误;3)由于中文汉字和数字字符之间的混淆识别,导致错误的输出结果。不同的识别器在对同一邮件上的地址进行识别时往往会发生不同的识别错误。在本文中,我们提出了一种融合不同识别器的中文地址识别结果来提高中文地址的识别整体正确率的方法。该方法可以分为叁步:1)使用基于改进最小编辑距离的动态规划方法,对多个识别器输出结果进行成对对齐,然后将成对对齐序列拓展成多序列的对齐;2)根据对齐的多中文地址序列生成候选假设链路;3)使用改进的统计语言模型计算候选假设的概率值,并使用Viterbi算法选择具有最大概率值的一条路径。我们使用两个数据集来对本文的方法进行测试,其中数据集的图像都采集自实际中的自动分拣机。测试集SRI1由1651封邮件图像组成,并且已经手动将地址块进行分割,我们使用该测试集进行单字符识别正确率的测试。测试集SRI2由3071封图像组成,并且未进行任何处理,我们使用该测试集在自动分拣机上进行道段分拣测试,以测试整体识别地址结果的整体正确性。实验结果表明本文提出的方法大大优于单个识别器和Miyao提出的方法。(本文来源于《华东师范大学》期刊2015-03-17)
多序列对齐论文开题报告
多序列对齐论文参考文献
[1].陈圣昌.基于多序列对齐和统计语言模型的多中文地址识别结果融合[D].华东师范大学.2015