通用分词系统论文开题报告文献综述

通用分词系统论文开题报告文献综述

导读:本文包含了通用分词系统论文开题报告文献综述、选题提纲参考文献,主要关键词:分词,中文,歧义,信息,专名,切分,汉语。

通用分词系统论文文献综述写法

罗智勇,宋柔[1](2006)在《现代汉语通用分词系统中歧义切分的实用技术》一文中研究指出歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·(本文来源于《计算机研究与发展》期刊2006年06期)

贺胜[2](2006)在《面向现代汉语文本处理的全文检索、自动分词通用系统》一文中研究指出全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重迭词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。(本文来源于《南京师范大学》期刊2006-06-30)

罗智勇[3](2002)在《现代汉语通用分词系统的技术与实现》一文中研究指出自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在歧义切分技术中,提出了一种切分规则库与基于歧义知识库动态校正相结合的实用歧义处理策略;在专名识别技术中,本文提出了一种专名(包括译名在内的人名、地名、企业字号、企业名和机构名等)一体化、快速识别方法。从大规模真实语料的测试结果来看,歧义切分处理的精度、专名识别的正确率和召回率均达到了较高的水平。 其次,本文概要的分析了通用型分词系统的难点,阐述了GPWS的解决方案,给出了通用分词系统的评价标准;并提出了交互式分词系统的概念,给出了一种简单的交互式方法。取得了良好的效果。(本文来源于《北京工业大学》期刊2002-05-01)

娄珽,宋柔,李卫亮,罗智勇[4](2001)在《现代汉语分词系统通用接口设计与实现》一文中研究指出现代汉语文本自动分词是中文信息处理的重要基石 ,为此提供一个通用的分词接口是非常重要的。本文提出了通用分词接口的目标 ,论述了它的原理和设计方案。该系统已经初步实现(本文来源于《中文信息学报》期刊2001年05期)

通用分词系统论文开题报告范文

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重迭词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

通用分词系统论文参考文献

[1].罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展.2006

[2].贺胜.面向现代汉语文本处理的全文检索、自动分词通用系统[D].南京师范大学.2006

[3].罗智勇.现代汉语通用分词系统的技术与实现[D].北京工业大学.2002

[4].娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报.2001

标签:;  ;  ;  ;  ;  ;  ;  

通用分词系统论文开题报告文献综述
下载Doc文档

猜你喜欢