导读:本文包含了汉语分词论文开题报告文献综述、选题提纲参考文献,主要关键词:分词,汉语,中文,算法,语料库,词频,特征。
汉语分词论文文献综述写法
朱运,李正华,黄德朋,张民[1](2019)在《基于弱标注数据的汉语分词领域移植》一文中研究指出近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显着下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。(本文来源于《中文信息学报》期刊2019年09期)
李质轩[2](2018)在《融合上下文信息的汉语分词方法研究》一文中研究指出汉语分词(Chinese Word Segmentation)是中文信息处理的基础工作。传统的汉语分词方法已经趋于成熟,但传统方法在特征模板和领域词典的自动构建方面存在一定的局限性。人工进行特征工程费时费力,成本高昂,而且难以保证所使用的特征覆盖所有的语言现象。近年来,随着深度神经网络(DeepNeuralNetwork)技术在自然语言处理任务中的发展,这种不需要人工制定规则与特征模板的方法很快受到人们的青睐。一方面,基于深度神经网络的方法能够从标注语料中自主地学习语言的内在规律,抽取文本特征;另一方面,汉语分词的精度在很大程度上受到文本中的集外词的影响,而集外词的大部分是命名实体与专业术语等,解决命名实体和专业术语识别的一种有效方法是通过序列标注来加以解决,而词的边界划分在序列标注过程中,与词的上下文信息关系密切。因此,本文采用基于深度神经网络的方法,使用FOFE(Fixed-sizeOrdinally Forgetting Encoding)编码将序列的上下文信息融入到分词模型中,设计并实现了一整套可以用于分词、实体识别与术语抽取的通用序列标注系统,在多种标注数据集上实验验证了提出方法的有效性。本文的创新点和主要研究成果如下:(1)设计了使用FOFE编码将上下文信息融入到现有的序列标注框架中的方案,并设计实现了从数据预处理到模型训练再到结果测试的整套系统;(2)使用多种汉语分词评测标注数据集分别进行了分词与命名实体识别的实验,分析并验证了本文提出方法的有效性;(3)对专利文献及其专业术语进行分析,设计了专利术语的标注方法,并验证了本文方法对专利术语抽取和识别的有效性。(本文来源于《北京交通大学》期刊2018-06-01)
白露[3](2017)在《特定领域汉语分词标准制定方法的研究》一文中研究指出汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大。但是由于特定领域分词标注语料匮乏,使得现有的基于通用领域的分词系统对特定领域文本进行分词时会造成分词精度下降,原因在于:(1)特定领域专业术语切分存在多样性,缺少分词标准来规范,从而影响分词精度;(2)特定领域与通用领域词汇结合时所产生的"跨界"问题,也就是交集型歧义切分问题。现有分词系统并不能对此问题提供良好的解决方案,从而造成分词精度下降。针对以上两个问题,本文研究特定领域分词标准制定的方法,规范特定领域专业术语切分方式,标注特定领域语料,提高特定领域分词精度;提出融合少量标注数据的统计方法来解决交集性歧义切分问题,从而提高分词精度。本文主要包括以下两方面工作:(1)针对特定领域分词标准缺乏的问题,本文提出基于统计特征的决策树分类方法,利用已有的新闻领域分词标准中的词语统计特征,包括AV值、边界熵和字符串频度值特征,并结合特定领域词语特征混合训练分类模型,用于专业术语判定,制定特定领域汉语分词标准。在制定的分词标准指导下,本文对科技领域语料自动标注,获得大规模标注语料。实验结果显示,边界熵、AV值和字符串频度值统计特征在决策树分类模型中获得最好结果,在此分词标注指导下构建的自动标注系统获得分词精度的提升。(2)特定领域文本含有大量领域特有专业术语,使得术语与通用词语相邻时位于各自边界的汉字容易成词,为分词边界切分引入更多不确定性,导致分词精度下降,被称为交集型歧义切分问题。针对交集型歧义切分问题,本文提出基于主动学习的局部数据标注方法,实现模型的领域自适应。其基本思想是利用原模型对特定领域文本分词,选取通用词语标注错误的语句,只对句子中通用词语错误的局部字串进行标注,然后将标注数据并入训练语料重新训练模型,实现原模型向特定领域的适应。本文采用基于CRFs的分词模型。实验结果表明,本文所提方法通过少量的人工标注数据有效的解决了交集型歧义切分问题。综上所述,本文围绕特定领域分词精度下降的问题,对特定领域分词标准制定方法进行了深入研究,提出了基于统计特征的决策树分类模型,填补了特定领域分词标准的空缺,并针对特定领域交集型歧义切分问题,提出了基于主动学习的局部标注方法。实验结果验证了这些方法的有效性。(本文来源于《北京交通大学》期刊2017-03-01)
张越,王东波,朱丹浩[4](2017)在《面向食品安全突发事件汉语分词的特征选择及模型优化研究》一文中研究指出【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二叁字词占46.62%的食品安全突发事件语料中,特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验,选择出在本文研究的语料库自动分词中最优的特征和特征模板,在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%。(本文来源于《数据分析与知识发现》期刊2017年02期)
孙琳[5](2016)在《基于NLPIR汉语分词系统和BFSU PowerConc 1.0的警务汉语词频与搭配研究——以禁毒案件为例》一文中研究指出警务汉语教学是专门用途汉语教学的新兴分支。本文以禁毒案件为例,使用NLPIR汉语分词系统和语料库检索软件BFSU PowerConc1.0统计禁毒案件高频词作为参照,与现有警务汉语教材相关课文的生词表对比,考察高频词命中情况。同时,以高频词表中出现的一组近义词为例,使用语料库软件分析其搭配特点,辨析词义,探索将语料库应用于专门用途汉语教学的新思路。(本文来源于《现代语文(语言研究版)》期刊2016年12期)
孙海涛[6](2016)在《搜索汉语分词技术浅析》一文中研究指出近年来,网络发展迅猛,出现了很多新的网络名词,如云计算、虚拟技术和互联网+等,国家也非常重视中国互联网的发展。在这样一个大数据时代下,想要准确、快速的获取自己需要的东西显得特别重要,本文就搜索引擎技术的一种核心技术——中文分词技术,本文以数量分词、地名人名识别、路径以及语义等为基础,论述了分词的相关方法和策略,并对中文分词的应用进行了分析。搜索引擎技术的研究,国外比中国要早近十年,从最早的(本文来源于《电脑迷》期刊2016年05期)
赵越,李红[7](2016)在《极大似然优化EM算法的汉语分词认知模型》一文中研究指出针对标准EM算法在汉语分词的应用中还存在收敛性能不好、分词准确性不高的问题,本文提出了一种基于极大似然估计规则优化EM算法的汉语分词认知模型,首先使用当前词的概率值计算每个可能切分的可能性,对切分可能性进行"归一化"处理,并对每种切分进行词计数,然后针对标准EM算法得到的估计值只能保证收敛到似然函数的一个稳定点,并不能使其保证收敛到全局最大值点或者局部最大值点的问题,采用极大似然估计规则对其进行优化,从而可以使用非线性最优化中的有效方法进行求解达到加速收敛的目的。仿真试验结果表明,本文提出的基于极大似然估计规则优化EM算法的汉语分词认知模型收敛性能更好,且在汉语分词的精确性较高。(本文来源于《科技通报》期刊2016年04期)
刘金辉[8](2016)在《融合语言学知识与统计方法的汉语分词》一文中研究指出笔者介绍了一种汉语分词框架,能够综合利用语言学知识与统计方法对输入的汉语句子实施词汇切分。首先,根据机读词典从汉语句子中切分出可信度最高的单词;然后,使用统计方法从大规模语料库中提取高频出现的元组,并利用这些元组对汉语句子进行词汇切分;最后,消除两种词汇切分结果中的歧义。(本文来源于《信息与电脑(理论版)》期刊2016年08期)
熊文新[9](2014)在《汉语真需要词间空格吗——对汉语分词连写献疑》一文中研究指出汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语"切分单位"的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。(本文来源于《语言科学》期刊2014年06期)
王希杰,黄勇杰[10](2013)在《基于叁词位的字标注汉语分词》一文中研究指出借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题。提出了一种基于叁词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法。(本文来源于《安阳师范学院学报》期刊2013年05期)
汉语分词论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉语分词(Chinese Word Segmentation)是中文信息处理的基础工作。传统的汉语分词方法已经趋于成熟,但传统方法在特征模板和领域词典的自动构建方面存在一定的局限性。人工进行特征工程费时费力,成本高昂,而且难以保证所使用的特征覆盖所有的语言现象。近年来,随着深度神经网络(DeepNeuralNetwork)技术在自然语言处理任务中的发展,这种不需要人工制定规则与特征模板的方法很快受到人们的青睐。一方面,基于深度神经网络的方法能够从标注语料中自主地学习语言的内在规律,抽取文本特征;另一方面,汉语分词的精度在很大程度上受到文本中的集外词的影响,而集外词的大部分是命名实体与专业术语等,解决命名实体和专业术语识别的一种有效方法是通过序列标注来加以解决,而词的边界划分在序列标注过程中,与词的上下文信息关系密切。因此,本文采用基于深度神经网络的方法,使用FOFE(Fixed-sizeOrdinally Forgetting Encoding)编码将序列的上下文信息融入到分词模型中,设计并实现了一整套可以用于分词、实体识别与术语抽取的通用序列标注系统,在多种标注数据集上实验验证了提出方法的有效性。本文的创新点和主要研究成果如下:(1)设计了使用FOFE编码将上下文信息融入到现有的序列标注框架中的方案,并设计实现了从数据预处理到模型训练再到结果测试的整套系统;(2)使用多种汉语分词评测标注数据集分别进行了分词与命名实体识别的实验,分析并验证了本文提出方法的有效性;(3)对专利文献及其专业术语进行分析,设计了专利术语的标注方法,并验证了本文方法对专利术语抽取和识别的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
汉语分词论文参考文献
[1].朱运,李正华,黄德朋,张民.基于弱标注数据的汉语分词领域移植[J].中文信息学报.2019
[2].李质轩.融合上下文信息的汉语分词方法研究[D].北京交通大学.2018
[3].白露.特定领域汉语分词标准制定方法的研究[D].北京交通大学.2017
[4].张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现.2017
[5].孙琳.基于NLPIR汉语分词系统和BFSUPowerConc1.0的警务汉语词频与搭配研究——以禁毒案件为例[J].现代语文(语言研究版).2016
[6].孙海涛.搜索汉语分词技术浅析[J].电脑迷.2016
[7].赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报.2016
[8].刘金辉.融合语言学知识与统计方法的汉语分词[J].信息与电脑(理论版).2016
[9].熊文新.汉语真需要词间空格吗——对汉语分词连写献疑[J].语言科学.2014
[10].王希杰,黄勇杰.基于叁词位的字标注汉语分词[J].安阳师范学院学报.2013