导读:本文包含了自动句法分析论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:句法,功能,汉语,词类,语法,模型,语言学。
自动句法分析论文文献综述
王佳骏[1](2017)在《基于计算机自动句法分析的汉—英与汉—德数词机器翻译算法的设计与实现》一文中研究指出本论文首先介绍了数词机器翻译研究的进展,并介绍了汉语、英语和德语数词的构造规律。接着,论文参照生成语法中的X-bar理论,提出了一个用于表示现代汉语数词内部结构的句法模型,并基于该模型及汉语数词中系数词和位数词的分布状况,用上下文无关文法设计了一套供CYK句法分析算法使用的描写汉语数词结构的规则库。句法分析在该机器翻译系统中主要为判定汉语数词中的“零”对应多少阿拉伯数字“0”而服务。为了弥补规则库设计不足导致句法歧义从而影响“零”判定的问题,本论文采用“分而治之”的策略,实现了可以将汉语数词自动翻译为相应的英语数词和德语数词的算法,最后使用Python语言实现并测试了这一算法,并将该算法的翻译结果与百度、谷歌与有道的在线翻译结果进行了对比,提出了该系统仍然需要改进的四个方面。本论文提出的多语种数词翻译算法的架构具备可扩展性,可以在后续的开发过程中根据需求添加模块,完成任意两指定语种之间的数词翻译。(本文来源于《上海外国语大学》期刊2017-05-01)
徐艳华[2](2015)在《基于语法功能匹配的自动句法分析研究》一文中研究指出词类体系的构建,对自动句法分析具有重要的作用。现有的词类体系主要是面向人的,面对计算机这个新的交际伙伴,其研究结果还显得有些粗糙。鉴于此,本文在详细描述3500个高频词的语法功能的基础上,按照"句法功能完全相同即为一类"的原则,构建真正适合自动句法分析的汉语词类体系。(本文来源于《现代语文(语言研究版)》期刊2015年12期)
马建军,宗敏[3](2014)在《功能小句自动句法分析结果的错误分析》一文中研究指出在系统功能语言学小句理论的基础上,通过对5021个经过自动句法分析的句子的主语、谓语、状语、补语、补语1/2/3、补语剩余部分和谓语剩余部分的识别错误进行了数据统计和分析。共得出3类一级错误、7类二级错误和38类叁级错误,并且将错误成因细致分为4大类13小类,配有具体实例说明。对面向自然语言处理的功能句法分析和语料标注均有一定的实际意义。(本文来源于《鸡西大学学报》期刊2014年09期)
张静杰[4](2013)在《虚词用法自动识别及其在依存句法分析中的应用研究》一文中研究指出现代汉语中词语主要分为实词和虚词两大类,其中虚词包含副词、介词、连词、语气词、方位词、助词等。虚词不能充当句法成分,但用法比较复杂多样。同一个虚词在不同的上下文中词性不同,即使词性相同,在不同语境中的用法也可能不同。因此需要对虚词的各种用法进行具体的分析和研究,为文本的理解提供方便,也有利于现代汉语的深入研究。本文在构建的“叁位一体”虚词用法知识库的基础上,以副词为例,分别采用了基于规则和基于统计的方法对现代汉语副词用法进行自动识别的研究,其中在基于统计的方法中分别使用了条件随机场模型、最大熵模型和支持向量机模型进行研究分析。实验结果表明,基于统计的副词用法自动识别的效果在总体上要优于基于规则的方法,而且叁种统计模型中以支持向量机模型的效果最好,但从单个用法的识别角度分析,一些用法在基于规则的方法上识别的效果较好。因此,本文结合基于规则和基于统计两种方法的优点,提出了规则和统计相结合的思想。实验结果表明,采用规则和统计相结合的方法在副词用法自动识别研究中取得较好的效果。在虚词用法自动识别研究的基础上,本文分析了其在汉语依存句法分析中的应用。对汉语依存句法进行分析时,采用哈尔滨工业大学的HIT-IR-CDT树库以及语言技术平台LTP,共有24种依存关系。通过对LTP中依存句法分析的功能进行详细分析,发现其中的并列关系识别效果较差。本文对并列关系中的标注情况进行了分类总结,根据连词用法识别出句子中的并列结构短语,根据识别结果对依存句法分析的结果进行处理,从而提高汉语依存句法分析中并列关系的识别效果。实验结果表明,采用并列结构信息后,并列关系的识别效果明显提高。(本文来源于《郑州大学》期刊2013-05-01)
徐艳华[5](2013)在《面向自动句法分析的名词再分类研究》一文中研究指出词类划分是为句法分析服务的,名词的再分类也必须遵循这一原则。但就现有的名词细类看,由于在分类时为句法分析考虑得不够充分,所以划出的小类对自动句法分析难以起到应有的作用。鉴于此,本文一改过去那种为了把某词放到合适的词类中而找"特点"的做法,按照词的句法分布,详细描述每个词的句法功能。按照句法功能总和相同即为一类的标准为名词进行再分类,以期为自动句法分析提供客观依据。(本文来源于《现代语文(语言研究版)》期刊2013年03期)
赵白玉[6](2012)在《基于汉语依存句法分析的主观题自动评分研究》一文中研究指出考试是日常教学和各类评审选拔活动中的重要环节,文字类考题分为客观题和主观题两类。目前,针对客观题的自动评分技术已经相当成熟,但是对于各类主观题,如简答、论述、写作题等,由于其使用自然语言描述而成,它的自动评分过程涉及到自然语言处理、人工智能、模式识别等知识领域,实现起来相当困难。如何利用计算机对主观题进行自动评分一直是考试系统自动化要解决的关键问题,也是自然语言处理领域中的一个研究热点。本文在考察国内外已有的主观题自动评分系统的基础上,将主观题自动评分技术研究的着眼点放在了比较考生答案和参考答案的语义相符程度上,提出了一种新的基于依存句法分析结果的主观题自动评分模型。该模型在利用自然语言处理领域的分词、词性标注和句法分析技术对考生答案和参考答案文本进行预处理的基础上,首先去掉了与答案相似度计算无关的虚词和标点符号,然后结合词语语义相似度的计算方法,通过构建词语相似度矩阵计算得到考生答案和参考答案的语义相似度,并最终给出主观题的自动评分结果。本文的最后在该评分模型的基础上实现了主观题自动评分的原型系统,通过设置对照实验,在与传统的基于分词结果的主观题自动评分系统的对比中,证明了本文所提出的评分模型的正确性和有效性。(本文来源于《湖南大学》期刊2012-05-16)
杨雪娇[7](2012)在《语义网自动构建中句法分析的研究》一文中研究指出随着语义网研究的不断发展,对自然语言的机器理解提出了更高的要求,作为其基础技术之一的句法分析成为研究的热点。准确构建语义网的核心问题是如何排除句法分析结果中的歧义结构。概率上下文无关(PCFG)模型是一种新型的句法分析模型,该模型执行效率高,分析结果准确,利用PCFG模型对语句的句法结构进行分析能有效的实现分析结果的排歧。本文基于Cocke、Kasami和Younger提出的句法分析算法(CYK算法),利用PCFG模型完成了句法分析算法的优化,同时为CYK算法构建句法树过程中使用的规则库进行重构,为该规则库中的每条规则添加一个概率值,在句法分析过程中通过概率值选择所需要的规则和处理的语句进行匹配,从而达到语句结构排歧的目的。论文首先通过分词模块进行语句分词和词性标注,接着对初始化完成的词串进行句法分析。采用Java语言将ICTCLAS4J系统生成分词和词性标注的接口,读取了ICTCLAS4J的词性标注文件,并将该文件的数据结构转换为对应的Java数据结构。在句法树的生成过程中,采用二维数组来存储和显示算法生成的句法分析结构。对CYK算法与PCFG模型之间的关系进行分析,采用概率计算的有效形式,利用Inside-Outside算法来对句法树构建中的规则进行匹配,并采用Java语言提供的Swing组件设计并实现句法分析的系统界面。此外,论文通过PARSEVAL测评方式对系统的性能进行了评价。本文采用Java语言开发了具有语义分析功能的汉语句法分析系统,通过对简单句进行分析处理,得到了较为准确的分析结果,实验结果表明本文在理论上是可行的,系统在实现上是有效的,具有进一步研究的价值。(本文来源于《沈阳工业大学》期刊2012-02-23)
宗敏[8](2011)在《基于CRFs的英语功能小句自动句法分析》一文中研究指出句法分析问题是自然语言处理领域的重点和难点,但逐步进入了瓶颈期。要提高句法分析的准确度,不仅需要适合的算法或模板,更要有语言学理论作为语法支撑。系统功能语法强调语言的功能,在句法分析时,注重语义和上下文,能够提高句法分析精度,完善自然领域领句法分析对语义和语境的处理问题。而系统功能语言学中的小句句法分析是近年来新兴的领域,理论成果较少,很值得研究和拓展。本文将韩礼德系统功能语法中的小句理论应用到句法分析当中,在前人的基础上,面向自然语言处理,将小句的句法功能成分规定为7种:主语、谓语、谓语剩余部分、补语、补语2/3/4、补语剩余部分和状语。同时,结合词性标注知识对自建的小型商务英语语料库进行人工标注。自动句法分析系统采用适于小型语料库的CRFs条件随机域模型,进行了六重交叉实验,测试识别的准确率、召回率和F值。实验表明,在我们的句法分析系统中,总体句法分析准确率达到92.5%,召回率91.96%和F值92.18%,分析效果是良好的。在对小句7种功能成分的识别中,识别效果最好的是谓语P功能和主语S功能,准确率、召回率和F值均高于97%;对补语C1的识别相对较好,准确率达到93.39%,召回率88.62%,F值90.86%;对于状语D、补语C、补语C2、谓语剩余部分的识别效果相对较低。为了提高和完善功能小句的句法分析,本文从语言学角度做了细致的错误分析。进行错误分析的语料由5021句经过句法分析实验的句子随机组成。经SQL Server统计,共出现193种错误。本文将其分为3类一级错误、7类二级错误和38类叁级错误。错误分类比例显示,状语和补语功能的识别错误最多,人工标注错误最少。究其错误原因,错误类型可分为4大类13小类。四大类包括:句型原因引起的错误、遗漏标注引起的错误,人为标注错误和标点引起的错误。随着越来越多的语言知识融入句法分析领域,从语言学角度进行错误分析是提高句法分析效果的必经之路。本文的错误分析结果表明,不仅语料的大小决定句法分析的质量,计算机对语言知识的学习和运用才是关键。(本文来源于《大连理工大学》期刊2011-04-30)
王东波,朱丹浩,谢靖[9](2011)在《面向汉语自动句法分析的语法知识库构建》一文中研究指出基于100万字的973汉语树库,按照语法功能分布的理论,从汉语自动句法分析和语言知识库构建的角度,构建一个相对系统化和多层次的语法知识库。该语法知识库由汉语词语、短语实例、短语结构、句法规则等知识组成。汉语词语知识共统计51 390个汉语词汇的58种语法知识,短语实例知识共获取3 836个汉语短语实例的58种语法知识,短语结构知识共抽取26种短语结构的58种知识,句法规则共有900条记录知识组成。该语法知识库的构建不仅为汉语自动句法分析和语言学研究提供语法知识,而且为更大规模的语法知识库构建打下基础。(本文来源于《现代图书情报技术》期刊2011年04期)
杨潇[10](2009)在《基于生成性概率模型的句法分析和多文档自动文摘研究》一文中研究指出由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量的飞速增长,多文档自动文摘越来越受到人们的重视。句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下,使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析模型叁个方面的研究和多文档自动文摘中句子表示形式和排序方法的研究,并通过实验对研究结果进行了验证和分析。在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法和文摘的冗余消除方法。本文的主要研究内容和创新点包括以下四个方面:1.提出了一种以词汇组合关系描述语法的二元组合语法体系由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题,提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。2.提出了一种基于局部优先级的句法分析算法句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息融入到二元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本文对传统的CYK(Cocke,Younger,Kasami)图算法进行改进,提出了一种基于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行了句法分析实验。结果表明,改进后的CYK图算法在产生树结构的数量和花费的时间上都明显低于传统的CYK算法。3.提出了一种基于嵌套层次限制的句法分析模型在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于局部优先的CYK图算法的基础上,提出了一种融合嵌套层次限制的二元组合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效的避免非法结构的生成。4.提出了一种基于生成性概率主题模型的多文档自动文摘方法使用潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型为句子建模,以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p(w|z)和句子在主题上的概率分布p(z|s),提出了概率生成模型和句子生成模型两种句子权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的句子作为文摘句。实验在DUC2002会议中提供的通用型多文档文摘测试集上进行,以ROUGE自动评测工具作为评测标准。结果表明,与基于词频的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以获得更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。本文进一步的工作包括:将组合关系的标签作为上下文纳入到分析算法中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。(本文来源于《山东大学》期刊2009-10-10)
自动句法分析论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
词类体系的构建,对自动句法分析具有重要的作用。现有的词类体系主要是面向人的,面对计算机这个新的交际伙伴,其研究结果还显得有些粗糙。鉴于此,本文在详细描述3500个高频词的语法功能的基础上,按照"句法功能完全相同即为一类"的原则,构建真正适合自动句法分析的汉语词类体系。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自动句法分析论文参考文献
[1].王佳骏.基于计算机自动句法分析的汉—英与汉—德数词机器翻译算法的设计与实现[D].上海外国语大学.2017
[2].徐艳华.基于语法功能匹配的自动句法分析研究[J].现代语文(语言研究版).2015
[3].马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报.2014
[4].张静杰.虚词用法自动识别及其在依存句法分析中的应用研究[D].郑州大学.2013
[5].徐艳华.面向自动句法分析的名词再分类研究[J].现代语文(语言研究版).2013
[6].赵白玉.基于汉语依存句法分析的主观题自动评分研究[D].湖南大学.2012
[7].杨雪娇.语义网自动构建中句法分析的研究[D].沈阳工业大学.2012
[8].宗敏.基于CRFs的英语功能小句自动句法分析[D].大连理工大学.2011
[9].王东波,朱丹浩,谢靖.面向汉语自动句法分析的语法知识库构建[J].现代图书情报技术.2011
[10].杨潇.基于生成性概率模型的句法分析和多文档自动文摘研究[D].山东大学.2009