一、基于汉语二字应成词的歧义字段切分方法(论文文献综述)
王高杰[1](2021)在《唐诗宋词超网络特性分析及分词研究》文中研究指明中华民族五千年的文明发展史上,传统优秀文学作品可谓是浩如烟海,而诗歌文化源远流长,以一种独特的文学形式在中华传统文化中占有独特的位置。以往学者们对唐诗宋词的研究较多从人文及艺术特征进行赏析,这种定性分析对唐诗和宋词的美学及人文意义有着不可替代的重要性,但要对整个唐诗宋词全貌进行横向和纵向深层分析研究,就显得力不从心。本文提出从超网络视角对唐诗宋词更为细密的深层分析,该方法将超网络模型应用于唐诗宋词作品的网络构建中,进而分析了唐诗超网络和宋词超网络的相关拓扑性质和度量指标。这不仅能够从唐诗语料和宋词语料的全貌看到其超网络的相关特性,定量分析其蕴含的深层知识,而且可以从文学审美方面反映唐代诗歌和宋代词的作品特征,也能从侧面反映古代文人作品的情感表达。唐诗宋词作为不同于现代汉语的古汉语语料,其基于现代汉语的分词技术不能用于唐诗宋词,针对当前的分词方法对基于传统的古汉语语料分词效果不佳的问题,提出了一个面向唐诗宋词的分词方法。本方法将基于互信息、词频和词嵌入结合来获取唐诗宋词的词表。首先,对不同参数k下的互信息值进行了实验,获得了唐诗宋词文本成词效果最好的参数k,并对二字串按互信息值排序,得到了互信息指标下的二字词表。然后,将唐诗宋词语料库中的高频二字串进行了统计提取,认为二字串频次越高,就越可能是一个词语。最后,引入了浅层神经网络的Word2Vec模型的矩阵分解,把语料库中的目标汉字和上下文汉字构建SPPMI矩阵,进而对SPPMI矩阵进行SVD分解,得到低维、稠密、分布式的字表示向量。将获得的语料库中的任意两个字向量进行了相似性计算,把得到的两个向量余弦值较大的二字串提取出来,同时要结合语料库少量统计规则,得到了该种方法获取的词表。最后,将以上三种方法获取的词表进行结合来获取唐诗宋词词表,将其命名为PFR方法。实验中通过对比其他方法所获取的词表,发现我们所提PFR方法的词表的质量较高。最后,本文将PFR方法所得词表,应用到第一季《中国诗词大会》的全部唐诗宋词分词中,发现用基于PFR词表的分词效果良好。
孙彦菲[2](2020)在《现代汉语“连X”的共时词汇状态考察》文中研究指明现代汉语“连”可以独立成词,也可以作为构词成分和其他语素组成词。当“连X”在语境中使用时,会由于上下文的影响形成歧义字串,主要表现为三种词汇状态:词、短语和跨层成分。为了让计算机更好地识别这三种不同的词汇状态,我们在综合考察的基础上,选取了“连接”“连声”“连天”三个词语作为典型个案进行论证分析。本文共分为三个部分:第一部分为绪论,主要介绍本文的研究对象,阐述选题的意义,综述“连”的相关研究现状、共时词汇状态的研究现状、汉语自动分词的研究现状,然后介绍本文采用的理论方法,最后交代语料来源。第二部分为正文部分,主要包括第一章至第四章。第一章是对“连X”共时词汇状态进行的综合考察。分析“连X”成词与非词时的状态,总结影响它们形成不同词汇状态的原因,并介绍了我们选取典型个案进行考察的原则。第二章至第四章为三个典型个案的考察。我们依据高频率以及典型性原则选取了三个典型个案,这三个词语主要是由“连”+动词性语素构成的“连接”和“连”+名词性语素构成的“连天”“连声”。我们发现除了部分结合非常紧密,在语境中不易产生歧义字串的词以外,“连”加动词性语素构成的词一般有词、短语、跨层成分三种词汇状态,而“连”加名词性语素构成的词一般只有词和跨层两种状态。最后我们从语义搭配方面对这三个词的词汇状态及其判定条件作了分析总结。第三部分为结语部分,即本文的第五章。我们综合了以上个案分析的情况,分别从“连”加名词性语素和动词性语素方面进一步总结识别“连X”词汇状态的依据。另外还对本文的后续研究作了展望,以期能够更好地帮助计算机识别现代汉语“连X”在具体语境中呈现出的三种词汇状态。
陆启文[3](2018)在《基于条件随机场的《左传》自动分词研究》文中指出汉语自动分词是汉语信息处理的重要分支。目前大多关于汉语自动分词的研究都是针对现代汉语的,对古汉语自动分词的研究较为薄弱。先秦典籍是了解先秦文化和历史的重要途径,《左传》则是先秦时期具有代表性的史学着作之一,因此,本文选取《左传》为研究对象,结合古汉语信息处理的特点,基于逆向最大匹配法和条件随机场模型的自动分词法对《左传》实现自动分词。本文主要进行了以下几个方面的工作:(1)设计了基于条件随机场模型的《左传》自动分词算法,包括语料选取、语料的标注、特征的选择以及特征模板的制定。本文选取了四词位的标注体系,选择了字符分类、词性、上古声、调、韵、反切、古音等特征进行CRF训练;(2)根据所设计出的基于条件随机场模型的《左传》自动分词算法进行具体的分词实验。采用CRF++0.58版本工具包,进行了不同特征和特征组合下的CRF分词实验;(3)对设计的基于条件随机场模型的《左传》自动分词算法进行测试。分别将采用逆向最大匹配算法的《左传》分词结果和未加入任何特征下的条件随机场法的分词结果设置成基准线Baseline1和Baseline2,将所有实验结果与Baseline之间进行对比分析,将不同实验结果之间进行对比分析,得出对比结果,并为今后的先秦文本自动分词工作提出建议。通过实验结果测评分析,本文得出了以下结论:(1)采用条件随机场对古汉语进行自动分词得到的分词效果要优于采用逆向最大匹配法对古汉语进行自动分词得到的分词效果,采用逆向最大匹配法对《左传》进行自动分词得到的分词F值为93.4631%,而采用条件随机场对《左传》进行自动分词得到的分词F值可达到95%以上;(2)在《左传》的自动分词中,“调”和“古音”的特征加入可以提高系统的分词切分精度,而“字符分类”、“声”、“反切”、“韵”的特征加入不但没有提高系统的分词效能,反而削弱了系统的分词效能;“词性”作为实验结果中最好的特征,它的加入大大提高了《左传》的切分精度,其分词F值能达到99%以上;(3)不能简单地认为某一特征在单一特征实验中得到的分词效果与它在多特征实验中的分词效果具有正相关关系,二者之间并不存在明显的相关性。在单一特征实验中分词结果较差的特征在组合特征实验中可以得到较好的分词结果,而在单一特征实验中分词结果较好的特征在组合特征实验中反而可以表现较差;(4)由于古汉语大多以单音节词为主,因此采用条件随机场对古汉语进行自动分词的特征模板窗口长度不宜过长,在我们所做的《左传》切分实验中,窗口长度为1的特征模板得到的分词效果最好。本文的主要贡献在于:(1)设计了一种基于条件随机场模型的《左传》自动分词法,融合了字符分类、词性、上古声、调、韵、反切、古音等多种特征,提高了分词效果;(2)在条件随机场模型的训练中,加入了不同数量的特征,全面测评了不同特征组合对分词效果的影响,对于在《左传》分词中效果较好的特征组合。我们在今后对古汉语进行自动分词时可以首先考虑加入此类特征组合,这对先秦文本自动分词具有一定启发性的意义。但是本文中作为基准线的分词方法比较单一,在进行基于词表的分词法实验中所选取的词表也较为单一。对此,在下一步工作中,我们可以采取更丰富的方法进行对照实验,同时可以采取更丰富的词表(如注疏词表)进行基于词表的分词法实验。
李伟[4](2014)在《中文分词歧义消解技术的研究》文中提出搜索引擎是人们搜索信息、获取知识的重要工具。而中文分词作为其中的一个重要环节,也是近几年来该领域的热点研究问题。歧义消解技术是中文分词的一个重要组成部分,该技术是通过一定策略将分词产生的歧义字段进行消除的过程,从而提高分词的精度。本文研究的主要内容如下:(1)研究了中文分词歧义消解技术的研究背景、研究意义及国内外研究现状。(2)深入研究了中文分词歧义消解技术及其各种算法。主要包括歧义字段产生的原因、歧义字段的分类、消解歧义字段的算法以及在歧义字段处理阶段面临的挑战。(3)提出了歧义消解的改进算法。在该算法中,引入了支持度因子作为切分的标准,分别对歧义矩阵识别出来的交集型和组合型歧义进行消解。对于交集型歧义,根据歧义字段在文档中的分布情况,构造不同切分方式的支持度因子,最后通过支持度因子的大小来决定从前或从后切分;对于组合型歧义,同时构造从分和从合的支持度因子,根据支持度因子的大小来确定从合还是从分的切分方式。(4)设计实现了一个基于支持度因子的对交集型歧义和组合型歧义进行消解的中文分词系统。该系统由四个模块组成,即预处理模块、初步切分模块、歧义字段的识别模块和歧义字段的消解模块。在词典的设计中,采用了多个文本文件,提高了访问速度。
李惠[5](2014)在《组合型中文分词方法的研究》文中研究说明随着计算机技术的发展,人们已经进入了以网络为核心的信息时代,在这个信息急剧膨胀的社会里,如何获取和掌握有用的信息成为了个人、企业及政府关注的重点。在这种环境下,中文信息处理技术成为了科研人员研究和开发的热点,其中最重要的就是中文分词技术。中文分词是将没有特定分界符的汉字序列分割成符合特定语境下汉语语意的词序列的过程,它是中文信息处理的前提和基础,也是制约着中文信息处理技术发展的瓶颈。歧义的消除和未登录词的识别是中文分词技术的难点,也是影响中文分词切分速度和精度的重要因素。近年来,为了提高切分速度和精度,已经出现了很多中文分词的方法,这些方法的改进主要表现在两个方面:对分词词典的改进,这种改进主要通过减少待切分文本与词典的匹配次数来提高分词的速度;对分词算法的改进,此类型的改进主要是通过对自身算法的改进来提高分词系统的歧义处理和未登录词识别的能力。本文结合这两种改进方式,根据当前关键技术研究现状设计了一个综合词典、统计和规则的组合型中文分词方法,该方法兼有对歧义的检测与处理和对未登录词的识别能力。本文对中文分词的词典机制和分词算法进行了详细研究,提出了一个中文分词的解决方案,该方案主要进行了如下三个方面的工作:第一,对分词词典机制的改进,改进后的词典针对中文信息中二字词所占比例多和汉语中心语偏后的特点,采用双字哈希表的结构(首字哈希表和尾字哈希表),在不提升已有典型词典的空间和维护复杂度的前提下,实现了词条的快速匹配。第二,歧义的检测与处理,现阶段歧义的识别大多是利用双向最大匹配算法,由于双向匹配算法匹配次数较多,出现了回溯正向最大匹配算法,该算法采用回溯词向后推进一个汉字的方式来检测链长为1词簇为2的交集型歧义,减少了歧义检测时与词典的匹配次数,但该方法存在两点缺陷,一是它只能检测链长为1词簇为2的交集型歧义,不能识别链长为1的其他类型歧义和链长为2的交集型歧义,其歧义识别能力有限;另一个是对未发生交集型歧义的字段也进行碎片整理,造成了重复匹配问题。本文针对这两点缺陷在该算法的基础上增加了一个链长为1词簇为3的交集型歧义检测模块,增加之后的算法不仅能识别链长为1的交集型歧义,还能识别链长为2的交集型歧义,同时利用计数方式,对连续发生交集型歧义的字段利用规则与统计结合的方式进行集中消岐,集中消岐方式避免了碎片整理时对没有发生交集型歧义的字段的重复匹配问题,降低了改进算法的时间复杂度。第三,未登录词的识别,本文结合改进算法利用已有识别机制的概率模型与规则相结合的方式来识别未登录词。在大量语料之上的测试结果表明,在提高切分速度的同时,本文提出的组合型中文分词算法不仅提高了切分精度,还可以识别未登录词。系统在整体性能上取得了较满意的效果。
竹景汉[6](2012)在《基于中文分词技术的在线自动答疑系统研究》文中研究表明随着我国网络技术的发展,计算机技术在各领域也得到了广泛的应用,其中一个重要的应用及典型的实例就是我国网络教育的普及化。而答疑系统与网络教育平台是紧密联系的,它是网络教学中的一个重要支点,答疑系统能帮助学生克服一系列在实际中遇到的问题,解决学习过程中的疑惑,使教学能够更加顺利的进行。它的发展是伴随着多种相关的技术一起应用的,中文分词方法是现阶段中考虑最多的技术。可以说,如果没有使用分词算法,再完美的答疑系统也是不具备智能性的。本文是建立在中文分词技术的基础上,研究和设计的一个在线自动答疑系统。首先,我们分析了这个系统的背景和研究现状;其次,简要的描述了现有的分词技术并确定了将字符串匹配方法作为本文的分词方法;最后确定将全切分图算法应用到字符串匹配方法中。算法的过程大致是:将待处理字符串按照内存中读取的词典内容逐一扫描得到一个串首词集合,对该集合中每一元素的剩余子串进行递归扫描,最后得到一条最优路径的过程。分词质量的好坏直接影响答疑系统的准确性,分词词典的设计影响分词的时间,实验结果表明,该方法有利于实现对字典一次访问后的多次利用,能一定程度提高了智能答疑系统的效率。分析答疑系统自身需要的特点后,研究本系统的程序代码,将基于全切分图算法的机械分词方法嵌入到Lucene全文检索系统中。根据Lucene检索引擎具有很强的面向对象的特征,对其核心部分的抽象类与开放的msnm-lib包中的类进行封装,实现答疑系统的在线自动功能。Lucene系统采用模糊查询的方法,对分词后的关键词在数据库中相应的找到答案,并反馈给学生。最后是对本文全部工作进行总结,也对今后进一步的研究方向做了分析与展望。
蒋龙[7](2012)在《基于统计的汉语分词在机械产品设计中的应用》文中研究指明汉语分词是自然语言理解中的一个主要组成部分,同时也是文本挖掘,机器翻译,信息检索的基础。由于汉语分词问题本身的复杂性,故而寻求准确有效的汉语分词方法成为自然语言理解的主要研究内容之一。本文设计了基于统计和语义分析相结合的分词模型,将其应用在产品的设计过程中。通过该模型将用户以自然语言形式描述的需求进行切分,将切分结果经过自然语言理解系统的其余模块的处理转化成为计算机能够识别的概念设计要求。本文分析了现有汉语分词的方法及其主要存在的问题,研究了基于语料库的分词方法及其关键技术,结合现有的分词方法,提出将机械分词、语料库统计分词和语义分析相结合的分词模型,并将此分词模型嵌入到某领域汉语理解系统之中。机械分词阶段,利用改进的最大匹配法,以求尽量得出所有的切分形式并用有向图的形式表现出来,并且找出分词中的歧义字段,对其进行消除歧义。语料库统计阶段,先将歧义字段中的各种常见搭配组合利用语料库统计方法统计,统计其共现度和搭配情况,并把搭配情况反馈到统计词典中,实现分词系统和整个自然语言理解系统的自我完善和良性互动,同时对合成词(“2+2”,“2+3”和“3+2”模式)的可信度进行统计;然后采用语义分析中的动名词结构,结合概念从属的知识表示方法,对分词结果进一步消除歧义,提高了分词系统的准确率,降低分词系统的复杂度。最后结合实际将该分词模型应用于产品设计的用户需求分析领域。
林冬盛[8](2011)在《中文分词算法的研究与实现》文中研究说明中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重要的理论和现实意义。为了满足上层应用对分词实用性要求,本文将机械分词和基于统计的分词法有机结合,提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分,采用改进的双向最大匹配检测法检测出歧义字·段,并运用基于二元统计模型的全切分消解歧义。其次,采用基于角色的命名实体识别方法识别出未登录词。最后,引入规则库对分词结果进一步修正。本文的研究工作主要有:1)采用二次索引的词典结构,提升词典查找速度,使用Java对象序列化技术实现词典文件的加载(反序列化)和词典对象的序列化。2)在歧义检测方面,提出了改进的双向最大匹配检测算法,不仅能检测到链长为奇数的歧义字段,而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上,采用全切分法消解歧义。3)在未登录词识别方面,将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注,采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。4)目前中文分词软件包大都以C++语言开发,而作为主流开发语言之一的Java,其中文分词组件相对较少。因此,在分词算法的研究基础上,设计并实现了支持Java语言的中文自动分词系统。实验表明,该中文分词算法在CPU3.0GHZ,内存2GB的环境下,切分速度约为21000字/秒,分词准确性指标F-1值达到了95%左右,基本能够满足大部分上层应用的要求。
陈堃[9](2011)在《基于中文分词检索技术的企业名称查重系统的研究》文中认为企业名称是企业申请登记时,由企业名称的登记主管机关核定,经核准登记注册后方可使用,在规定的范围内享有专用权。随着贵州经济的高速发展,企业的数量正在不断增长,面对如此众多的企业名称信息,充分利用计算机系统强大的查询检索功能,对企业名称的查重、分析有着重要的理论意义和现实意义。本文针对企业名称的特点重点研究和实现一种新的企业名称查重模块,本文的主要研究工作如下:1.中文分词技术在企业名称查重系统中的运用,中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。本文采用了一种典型的基于词典的中文分词算法—正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文添加关键词切分,提升分词的速度,提高分词的精确度。2.针对企业名称的法定依据,本文中引进同音字和多音字处理模块,提出对企业名称中的字号进行拼音转换,并用穷举法罗列出所有的发音序列,再使用发音序列对企业名称进行查重,完成企业名称查重处理。
任丽芸[10](2011)在《搜索引擎中文分词技术研究》文中研究表明中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。论文对搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。论文在分析研究现有中文分词算法、词典机制以及歧义词和未登录词处理策略的基础上,提出了一种改进的中文分词方法,该方法以人工切分和标注好的《人民日报》语料库和专门的人名地名语料库为基础,对中文信息进行处理。一方面,论文针对现有中文分词算法和词典机制存在的不足,提出了基于最大逆向匹配的概率分词算法和基于有限自动机的中文分词词典机制,力求在完成分词功能的同时降低算法的时间和空间复杂度;另一方面,对于目前普遍存在的歧义词和未登录词识别两个难点,论文首先通过最大正向匹配、最大逆向匹配以及基于最大逆向匹配的概率分词算法提取分词碎片,然后结合构词规则和特定的人名地名语料库进行纠错处理,以进一步提高分词准确率。以改进的分词方法为基础,论文设计实现了一个中文分词原型系统,该系统包括提取文本、训练语料库、分词处理、性能测试四个部分。同时,利用人工切分和标注好的《人民日报》语料库对原型系统的分词速度和准确率进行测试,实验表明,系统的切分速度约为1 200字/秒,分词准确率达到了96%以上。论文从分词算法、词典机制、歧义词处理和未登录词识别四个方面分析研究了中文分词技术,并设计实现了一个中文分词原型系统。在设计实现的过程中,论文对分词技术从理论和实验上所做的探索都会对该领域的研究提供一定帮助。
二、基于汉语二字应成词的歧义字段切分方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于汉语二字应成词的歧义字段切分方法(论文提纲范文)
(1)唐诗宋词超网络特性分析及分词研究(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究现状 |
1.4 本文主要创新点 |
1.5 本文组织结构 |
第二章 基础知识 |
2.1 概述 |
2.2 超网络基本概念及拓扑指标 |
2.2.1 超网络的概念 |
2.2.2 超图的表示形式 |
2.2.3 超网络拓扑指标与统计指标 |
2.3 中文分词的问题及技术 |
2.3.1 中文分词中的问题 |
2.3.2 中文分词技术 |
2.3.3 中文分词相关工具 |
2.4 本章小结 |
第三章 唐诗宋词超网络特性分析 |
3.1 概述 |
3.2 唐诗宋词语料库介绍 |
3.2.1 语料库简介 |
3.2.2 语料库预处理 |
3.3 唐诗宋词超网络构建与分析方法 |
3.3.1 唐诗宋词超网络构建方法 |
3.3.2 唐诗宋词超网络分析方法 |
3.4 实验及分析 |
3.4.1 超度与超度分布 |
3.4.2 超边节点度及超边节点度分布 |
3.4.3 平均路径长度和集聚系数 |
3.5 本章小结 |
第四章 基于PFR策略的唐诗宋词词汇获取 |
4.1 概述 |
4.2 互信息获得词语 |
4.3 SGNS与 SPPMI矩阵分解 |
4.4 本文分词模型与策略 |
4.4.1 二字串频次获取(TSWF) |
4.4.2 字向量获取 |
4.4.3 PFR方法 |
4.4.4 PFR方法的可解释性与局限性 |
4.5 本章小结 |
第五章 唐诗宋词分词任务 |
5.1 概述 |
5.2 词表获取 |
5.3 唐诗宋词分词 |
5.4 小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
个人简介 |
作者攻读硕士学位期间参加的科研项目 |
作者攻读硕士学位期间完成和发表的论文 |
(2)现代汉语“连X”的共时词汇状态考察(论文提纲范文)
中文摘要 |
Abstract |
零绪论 |
0.1 选题意义 |
0.2 相关研究现状 |
0.2.1 “连”字的相关研究 |
0.2.2 现代汉语共时词汇状态的相关研究 |
0.2.3 汉语自动分词的相关研究 |
0.3 解决问题采用的理论、方法、技术、语料 |
0.3.1 研究理论和方法 |
0.3.2 语料来源 |
0.4 可能的创新点 |
0.5 存在的困难和解决这些困难的打算 |
0.5.1 存在的困难 |
0.5.2 解决困难的策略 |
第一章 “连X”的词汇状态及其影响因素 |
1.1 成词状态的“连X” |
1.2 短语状态的“连X” |
1.3 跨层状态的“连X” |
1.3.1 “连X”在“连”字句中 |
1.3.2 “连X”在非“连”字句中 |
1.4 影响“连X”词汇状态的因素 |
1.4.1 上文对“连X”的影响 |
1.4.2 下文对“连X”的影响 |
1.4.3 上下文同时对“连X”的影响 |
第二章 “连接”的词汇状态及其判别分析 |
2.1 词汇类型 |
2.2 “连接”为词时的判别分析 |
2.3 “连接”为短语的判别分析 |
2.4 “连接”为跨层成分的判别分析 |
第三章 “连声”的词汇状态及其判别分析 |
3.1 词汇类型 |
3.2 “连声”为词的判别分析 |
3.3 “连声”为跨层成分的判别分析 |
第四章 “连天”的词汇状态及其判别分析 |
4.1 词汇类型 |
4.2 “连天”为词的判别分析 |
4.3 “连天”为跨层成分的判别分析 |
第五章 结语 |
5.1 结论 |
5.2 后续研究展望 |
参考文献 |
致谢 |
(3)基于条件随机场的《左传》自动分词研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 本文的主要工作 |
1.3 创新之处 |
1.4 本章小结 |
第二章 文献综述 |
2.1 汉语自动分词的概述 |
2.1.1 汉语自动分词的算法 |
2.1.2 目前汉语自动分词的发展趋势 |
2.1.3 汉语自动分词的两大困难 |
2.2 古汉语自然语言处理的发展概况 |
2.2.1 古汉语自动分词概况 |
2.2.2 古汉语其他信息处理技术概况 |
2.3 条件随机场模型在自动分词中的应用 |
2.4 本章小结 |
第三章 基于条件随机场的《左传》自动分词实验算法设计 |
3.1 算法的总体设计 |
3.2 语料选取 |
3.3 语料的标注 |
3.3.1 序列标注 |
3.3.2 标注体系的选择 |
3.4 特征的选择 |
3.4.1 上下文窗口长度 |
3.4.2 句法结构 |
3.4.3 语言特征 |
3.5 特征模板 |
3.5.1 特征模板的格式 |
3.5.2 特征模板的类型 |
3.6 本章小结 |
第四章 基于条件随机场的《左传》自动分词实验算法实现 |
4.1 实验的工具 |
4.1.1 CRF++工具包的选择 |
4.1.2 CRF++工具包的使用 |
4.2 基于条件随机场的《左传》分词流程 |
4.3 本章小结 |
第五章 基于条件随机场的《左传》自动分词实验结果测评 |
5.1 实验测评的标准 |
5.2 实验与结果 |
5.2.1 基于词表的自动分词 |
5.2.2 无特征下的CRF自动分词 |
5.2.3 加入一个特征的CRF自动分词 |
5.2.4 加入两个特征的CRF自动分词 |
5.2.5 加入三个特征的CRF自动分词 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 研究总结 |
6.2 不足与展望 |
参考文献 |
附录 |
致谢 |
(4)中文分词歧义消解技术的研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 中文分词歧义消解的研究背景及意义 |
1.2 中文分词歧义消解技术的研究现状 |
1.2.1 国际现状研究 |
1.2.2 国内现状研究 |
1.3 论文的研究内容及论文结构 |
1.4 本章小结 |
2 中文分词歧义消解相关技术 |
2.1 歧义产生的原因 |
2.2 歧义的分类 |
2.2.1 交集型歧义 |
2.2.2 组合型歧义 |
2.2.3 真歧义 |
2.3 中文分词歧义消解算法的介绍 |
2.3.1 基于统计的歧义消解算法 |
2.3.2 基于规则的歧义消解算法 |
2.4 歧义消解的困难 |
2.5 本章小结 |
3 基于支持度因子的交集型歧义和组合型歧义的消解策略 |
3.1 基于歧义矩阵的歧义字段识别机制 |
3.1.1 现有的识别歧义字段的方法 |
3.1.2 基于歧义矩阵的歧义字段识别机制 |
3.2 基于支持度因子的歧义消解算法 |
3.2.1 基本定义 |
3.2.2 改进的基于支持度因子的交集型歧义消解 |
3.2.3 改进的基于支持度因子的组合型歧义消解 |
3.3 本章小结 |
4 基于支持度因子的交集型和组合型歧义消解算法的中文分词系统的设计及实现 |
4.1 词典的设计 |
4.2 字符串的初始化 |
4.2.1 过滤标点符号 |
4.2.2 过滤英文字符与数字 |
4.3 系统的设计 |
4.4 算法的实现 |
4.4.1 基于规则的歧义消解算法 |
4.4.2 基于统计的歧义消解算法 |
4.4.3 基于支持度因子的歧义消解算法 |
4.5 运行结果 |
4.6 本章总结 |
5 实验分析与结论 |
5.1 性能评价指标 |
5.2 交集型歧义的结果分析 |
5.3 组合型歧义的结果分析 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士期间发表的学术论文 |
(5)组合型中文分词方法的研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
CONTENTS |
第一章 绪论 |
1.1 课题研究背景 |
1.2 课题研究意义 |
1.3 中文分词系统研究现状 |
1.4 本文所做的工作 |
1.5 本文组织结构 |
第二章 中文分词技术基础知识 |
2.1 中文分词算法概述 |
2.1.1 基于字符串匹配的分词算法 |
2.1.2 基于理解的分词算法 |
2.1.3 基于统计的分词算法 |
2.2 典型的中文分词词典机制 |
2.2.1 整词二分词典机制 |
2.2.2 TRIE索引树词典机制 |
2.2.3 逐字二分词典机制 |
2.3 中文分词两大难点 |
2.3.1 歧义的识别与消除 |
2.3.2 未登录词的识别 |
2.4 本章小结 |
第三章 组合型中文分词算法的改进 |
3.1 本文需解决的问题 |
3.2 本文采用的分词算法 |
3.2.1 待切分文本的预处理 |
3.2.2 分词词典的设计 |
3.2.3 回溯正向最大匹配算法的改进 |
3.3 歧义检测与处理策略 |
3.3.1 交集型歧义的检测方法 |
3.3.2 交集型歧义的消除策略 |
3.4 未登录词识别策略 |
3.4.1 未登录词识别的概率模型 |
3.4.2 未登录词识别机制 |
3.5 本章小结 |
第四章 组合型中文分词方法总体框架与详细设计流程 |
4.1 组合型中文分词方法的总体框架 |
4.2 组合型中文分词算法的详细设计流程 |
4.2.1 词典的加载 |
4.2.2 分词前的预处理 |
4.2.3 改进的回溯正向最大匹配算法的详细设计流程 |
4.2.4 交集型歧义检测与处理详细流程 |
4.2.5 未登陆词的识别流程 |
4.3 本章小结 |
第五章 实验结果 |
5.1 系统评测标准 |
5.2 实验数据 |
5.2.1 系统整体数据 |
5.2.2 交集型歧义消除数据 |
5.2.3 未登录词识别数据 |
5.3 改进算法与回溯正向最大匹配算法的比较 |
5.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
(6)基于中文分词技术的在线自动答疑系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景 |
1.2 国内外研究现状 |
1.3 本课题研究工作 |
1.4 论文结构安排 |
第二章 相关技术分析 |
2.1 基于中文分词的在线答疑系统 |
2.1.1 中文分词的概念 |
2.1.2 在线答疑系统研究目标和途径 |
2.1.3 为什么要采用中文分词 |
2.2 开发语言和平台 |
2.2.1 JAVA |
2.2.2 MyEclipse |
2.3 Lucene--全文检索引擎 |
2.3.1 开源项目 |
2.3.2 突出的优点 |
2.4 IKAnalyzer 中文分词器 |
2.5 本章小结 |
第三章 中文分词理论算法研究 |
3.1 有关中文分词的技术难点以及重点 |
3.1.1 中文分词发展的现状 |
3.1.2 技术难点分析 |
3.1.3 系统的评比目标 |
3.2 中文分词的基本算法 |
3.2.1 机械分词算法方式 |
3.2.2 基于统计的分词算法 |
3.2.3 基于理解的分词算法 |
3.2.4 词性标注与角色标注 |
3.3 已实现的自动中文分词系统 |
3.3.1 几个国内大学探究的不同的系统 |
3.3.2 Microsoft Research 汉语句法分析器中的自动分词 |
3.4 本章小结 |
第四章 中文分词技术在自动答疑系统中的应用 |
4.1 在线自动答疑系统分词方法的选择 |
4.1.1 在线自动解答程序提问方式的分析 |
4.1.2 在线自动答疑系统分词方法的选择 |
4.2 全切分方案的预先操作 |
4.2.1 全切分图 |
4.2.2 在线自动答疑系统分词算法中的专业词汇处理 |
4.2.3 分词效果示例 |
4.3 本章小结 |
第五章 系统需求分析和总体设计 |
5.1 系统的需求分析 |
5.1.1 系统功能的需求 |
5.1.2 系统性能的需求 |
5.1.3 系统安全性方面的需求 |
5.2 MSN 网络协议分析 |
5.2.1 MSN 开放式 API 介绍 |
5.2.2 MSN 登录经过 |
5.2.3 即时信息传输经过 |
5.3 在线自动答疑系统总体设计 |
5.3.1 系统总体设计模式 |
5.3.2 系统数据流程图 |
5.3.3 系统功能模块设计 |
5.3.4 系统用例图 |
5.3.5 系统时序图 |
5.3.6 系统活动图 |
5.4 数据的连接和设计 |
5.4.1 数据库的连接 |
5.4.2 相关表结构的设计 |
5.5 本章小结 |
第六章 系统的实现和测试 |
6.1 系统的运行环境 |
6.2 MSN 接口的实现 |
6.3 词典的建立 |
6.4 中文分词模块的实现 |
6.5 关键字检索的实现 |
6.6 系统测试 |
6.6.1 在线答疑过程 |
6.6.2 分词功能的体现 |
6.6.3 问题库的添加 |
6.6.4 问题库的刷新 |
6.7 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
攻读学位期间参加的科研项目和成果 |
(7)基于统计的汉语分词在机械产品设计中的应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 产品设计简介 |
1.2 自然语言理解概述 |
1.2.1 自然语言理解的定义 |
1.2.2 自然语言理解的基本方法 |
1.2.3 自然语言理解研究进展 |
1.3 分词研究概述 |
1.3.1 中文分词的定义 |
1.3.2 中文分词现状 |
1.3.3 中文分词研究的目的和意义 |
1.4 本文主要工作 |
第二章 中文分词相关知识及概念从属树理论 |
2.1 中文分词中的基本问题 |
2.2 中文分词的基本方法 |
2.3 基于语料库的统计分词 |
2.4 概念从属理论 |
2.4.1 概念的含义及其概念的内涵与外延 |
2.4.2 概念从属理论 |
2.5 本章小结 |
第三章 基于统计和语义分析的分词模型 |
3.1 粗切分后的统计消歧 |
3.1.1 利用最大匹配法实现粗切分 |
3.1.2 歧义字段的统计消歧 |
3.1.3 合成词的统计 |
3.2 粗切分后的语义消歧 |
3.3 基于统计和语义分析的分词模型的构建 |
3.3.1 基于统计的分词模型的构建 |
3.3.2 分词模型模块分析 |
3.4 本章小结 |
第四章 基于统计与语义分析的分词模型设计和实现 |
4.1 基于统计与语义分析的分词模型概述 |
4.2 分词模型设计 |
4.2.1 机械分词阶段关键流程设计及实例 |
4.2.2 基于语料库的统计分词模型的设计 |
4.2.3 概念从属知识表示模型的设计 |
4.3 本章小结 |
第五章 基于统计与语义分析的分词模型在产品设计中的应用 |
5.1 自然语言理解系统在机械设计领域的应用 |
5.2 基于自然语言理解的机械设计需求分析系统的设计介绍 |
5.3 基于统计的中文分词在机械产品设计中的应用 |
5.4 本章小结 |
总结与展望 |
致谢 |
参考文献 |
(8)中文分词算法的研究与实现(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 论文研究背景与意义 |
1.2 中文分词的研究现状 |
1.3 论文研究内容与组织结构 |
1.3.1 论文研究内容 |
1.3.2 论文组织结构 |
第二章 中文分词方法研究 |
2.1 中文分词的主要算法 |
2.1.1 基于字符串匹配的分词方法 |
2.1.2 基于统计的分词方法 |
2.1.3 基于理解的分词方法 |
2.1.4 机械分词与统计分词优缺点对比 |
2.2 中文分词的技术难点 |
2.2.1 切分消歧 |
2.2.2 未登录词识别 |
2.3 中文分词测评标准 |
本章小结 |
第三章 基于词典和统计规则的中文分词算法 |
3.1 双字哈希词典机制 |
3.2 基于词典和统计规则的分词算法 |
3.2.1 算法核心流程描述 |
3.2.2 预处理模块 |
3.2.3 初分模块 |
3.2.4 统计分析模块 |
3.2.5 规则修正模块 |
3.3 实验结果 |
3.3.1 两种词典机制性能测试 |
3.3.2 歧义检测实验 |
本章小结 |
第四章 中文分词系统的实现及测试 |
4.1 分词系统设计 |
4.1.1 系统需求分析 |
4.1.2 系统整体框架 |
4.1.3 系统详细设计 |
4.2 分词系统实现 |
4.2.1 词典加载实现 |
4.2.2 核心模块实现 |
4.3 系统语料测试结果 |
本章小结 |
第五章 总结和展望 |
5.1 工作总结 |
5.2 未来工作展望 |
参考文献 |
攻读硕士学位期间取得的学术成果 |
致谢 |
(9)基于中文分词检索技术的企业名称查重系统的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 中文分词发展概述及现状 |
1.3 本文的研究内容及论文结构 |
第二章 中文分词概述 |
2.1 中文分词简介 |
2.1.1 中文分词的难点 |
2.2 中文分词算法的分类 |
2.2.1 基于字符串匹配的分词算法 |
2.2.2 基于理解的分词算法 |
2.2.3 基于统计的分词算法 |
2.3 中文分词算法的利弊对比 |
2.4 分词词典机制慨述 |
2.4.1 基于整词二分的分词词典机制 |
2.4.2 基于 Trie 索引树的分词词典机制 |
2.4.3 基于逐字二分的分词词典机制 |
2.4.4 双层 hash 的词典机制 |
2.5 分词性能评价指标 |
2.5.1 分词精度 |
2.5.2 分词速度 |
2.5.3 分词召回率 |
2.5.4 分词准确率 |
2.6 小结 |
第三章 歧义消除技术与同音字和多音字处理 |
3.1 歧义的发现 |
3.1.1 双向扫描法 |
3.1.2 逐词扫描法 |
3.1.3 最长词次长词发现法 |
3.1.4 正向最大匹配+回退一字法 |
3.2 分词歧义消解算法介绍 |
3.2.1 规则型歧义消解算法 |
3.2.2 词概率法歧义消解算法 |
3.2.3 t-测试算法 |
3.3 歧义处理的困难 |
3.4 同音字和多音字处理方法构思 |
3.4.1 同音字处理 |
3.4.2 同音字处理实施简介 |
3.4.3 多音字处理 |
3.4.4 多音字处理实施简介 |
3.5 小结 |
第四章 系统的设计与实现 |
4.1 系统设计的目的 |
4.2 系统总体设计 |
4.2.1 原工商企业名称数据库的概述 |
4.2.2 原工商企业名称查重应用情况 |
4.2.3 系统的解决方案 |
4.3 系统实现 |
4.3.1 开发平台及开发工具选择 |
4.3.2 系统实现 |
4.4 系统的测试 |
4.4.1 系统测试方案 |
4.4.2 测试流程 |
4.4.3 测试结果 |
4.5 小结 |
第五章 结束语 |
致谢 |
参考文献 |
(10)搜索引擎中文分词技术研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 分词算法的理论研究 |
1.2.2 现有的中文分词系统 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
2 相关理论和技术研究 |
2.1 常用的中文分词算法 |
2.1.1 基于字符串匹配的中文分词算法 |
2.1.2 基于统计的中文分词算法 |
2.1.3 基于理解的中文分词算法 |
2.1.4 基于路径的中文分词算法 |
2.1.5 基于语义的中文分词算法 |
2.2 常用的中文分词词典机制 |
2.2.1 基于整词二分的分词词典机制 |
2.2.2 基于TRIE 索引树的分词词典机制 |
2.2.3 基于逐字二分的分词词典机制 |
2.2.4 基于双字哈希的分词词典机制 |
2.3 中文分词技术的难点 |
2.4 中文分词系统的评价准则 |
2.5 本章小结 |
3 中文分词技术的难点 |
3.1 歧义词处理 |
3.1.1 歧义词的分类 |
3.1.2 歧义词的检测 |
3.1.3 歧义词的消解 |
3.1.4 歧义词处理的困难 |
3.2 未登录词识别 |
3.2.1 未登录词识别的方法 |
3.2.2 未登录词识别的困难 |
3.3 本章小结 |
4 一种改进的中文分词方法 |
4.1 基于最大逆向匹配的概率分词算法 |
4.1.1 词条概率的计算 |
4.1.2 最佳切分方式的选择 |
4.1.3 算法的实现流程 |
4.2 基于有限自动机的分词词典机制 |
4.2.1 词典机制的组织思想 |
4.2.2 词典机制的逻辑结构 |
4.2.3 分词词典的存储方式 |
4.3 歧义词的检测与切分 |
4.3.1 交集型歧义词的处理 |
4.3.2 组合型歧义词的处理 |
4.4 基于语料库的未登录词识别 |
4.4.1 分词碎片的抽取 |
4.4.2 碎片频率的计算 |
4.4.3 候选新词的筛选 |
4.5 本章小结 |
5 中文分词原型系统的设计与实现 |
5.1 原型系统的设计 |
5.1.1 系统的结构设计 |
5.1.2 系统模块及功能 |
5.1.3 数据库的设计 |
5.2 原型系统的实现 |
5.2.1 系统框架及函数介绍 |
5.2.2 提取文本模块的实现 |
5.2.3 训练语料库模块的实现 |
5.2.4 分词处理模块的实现 |
5.2.5 性能测试模块的实现 |
5.3 运行结果与分析 |
5.4 性能测试与评价 |
5.4.1 存储空间 |
5.4.2 切分速度 |
5.4.3 准确率 |
5.5 本章小结 |
6 结论与展望 |
6.1 主要结论 |
6.2 后续研究工作 |
致谢 |
参考文献 |
个人简历、在学期间发表的学术论文及取得的研究成果 |
四、基于汉语二字应成词的歧义字段切分方法(论文参考文献)
- [1]唐诗宋词超网络特性分析及分词研究[D]. 王高杰. 青海师范大学, 2021(09)
- [2]现代汉语“连X”的共时词汇状态考察[D]. 孙彦菲. 上海师范大学, 2020(07)
- [3]基于条件随机场的《左传》自动分词研究[D]. 陆启文. 南京农业大学, 2018(07)
- [4]中文分词歧义消解技术的研究[D]. 李伟. 青岛科技大学, 2014(04)
- [5]组合型中文分词方法的研究[D]. 李惠. 广东工业大学, 2014(10)
- [6]基于中文分词技术的在线自动答疑系统研究[D]. 竹景汉. 浙江工业大学, 2012(03)
- [7]基于统计的汉语分词在机械产品设计中的应用[D]. 蒋龙. 西安电子科技大学, 2012(03)
- [8]中文分词算法的研究与实现[D]. 林冬盛. 西北大学, 2011(08)
- [9]基于中文分词检索技术的企业名称查重系统的研究[D]. 陈堃. 西安电子科技大学, 2011(05)
- [10]搜索引擎中文分词技术研究[D]. 任丽芸. 重庆理工大学, 2011(04)