导读:本文包含了动态流通语料库论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:语料库,动态,语言,组织,中文,连词,自然语言。
动态流通语料库论文文献综述
胡秋红,陈倩[1](2015)在《大型动态流通报刊语料库建设研究》一文中研究指出通过论述大型动态流通报刊语料库建设的目的和意义,立足国内外媒体新闻语料库建设概况,以广东报刊新闻为切入点,提出报刊语料库建库对象、建库方法、语料库标识、语料库附码、语料库结构的设计原则,并从多角度分析动态流通报刊语料库在语言研究中的应用,指出该类型语料库建设在丰富地区性报刊新闻语料,促进语言文字研究发展和学习者成长进步等多方面的理论和现实意义。(本文来源于《开封教育学院学报》期刊2015年02期)
桑丛丛[2](2012)在《基于动态流通语料库的高频单音节放置类动词研究》一文中研究指出放置类动词是现代汉语词汇中的一个类义词群,因其在句法语义方面所特有的属性得到语言学界的关注。借鉴前人研究类义词群的方法,对高频单音节放置类动词进行了句法、语义、认知等多方面的研究。在界定方面,结合意义和形式两方面提出了单音节放置类动词的标准,确定了研究对象——从动态流通语料库中提取出12个高频单音节放置类动词。在句法方面,一方面着重考察了高频单音节放置类动词表达的静态功能,其主要通过叁种句法格式:NP被放置物+V+在+NP空间位置、NP被放置物+在+NP空间位置+V+着、NP空间位置+V+着+NP被放置物表现出来。另一方面分析了高频单音节放置类动词所强制携带的语义成分在句法层面上的映现情况,这主要通过客体成分的前移和与体成分的前移及后移表现出来。在语义上,一方面运用义素分析法对12个高频单音节放置类动词进行了分析,归纳出该类义动词共同的语义特征;另一方面运用“词义成分——词义构成模式”考察12个高频单音节放置类动词词义的构成情况,据此分析了该类义词群内部成员语义上的差异。再一方面,探究了高频单音节放置类动词对语义成分的选择情况。最后,从认知的角度对高频单音节放置类动词进行了研究:构建了放置事件的认知图式,分析了放置事件所具有的特征;探究了放置事件的认知图式元素在词典释义中的运用情况;划分出放置事件的次范畴,并结合句法进行了进一步的分析。(本文来源于《湖南大学》期刊2012-04-27)
李艳娇,杨尔弘[3](2010)在《基于动态流通语料库的连词考察》一文中研究指出连词使用范围很广,越来越受到语言学研究的重视,同时也是语言教学中的重要一环。已有的连词研究多是定性的对连词范围、功能、用法的研究和探讨。本文在国家语言资源监测与研究中心平面媒体分中心的动态流通语料库上,以五年(2005-2009)语料为基础,定量考察现代汉语连词在语料中的分布,对连词的常用、罕用情况、历时的稳定性等分级分量进行考察,并对其分布特点进行归纳和总结。(本文来源于《第五届全国青年计算语言学研讨会论文集》期刊2010-10-11)
韩秀娟[4](2008)在《基于动态流通语料库(DCC)的通用词语用字考察》一文中研究指出本文基于中国主流报纸动态流通语料库(DCC—Dynamic Circulating Corpus),对1万通用词语进行了词语用字考察:建立"通用词语用字等级数据库"等数据库,并与《汉语水平词汇与汉字等级大纲》、《现代汉语常用字表》做了比较分析,希望能给语言教学和语言研究提供宏观的参考资料。(本文来源于《数字化汉语教学进展与深化》期刊2008-08-25)
唐长宁[5](2008)在《基于现代汉语动态流通语料库的通用词汇自动提取方法研究》一文中研究指出人类社会正在从工业社会迈向信息社会,信息的主要载体是自然语言,即人类彼此交流所使用的语言。自然语言处理研究如何让计算机理解人类语言并开发有关的适用系统,然而自然语言中的通用词汇是一个民族的语言系统中最常见,使用频率较高的那些词汇,无论在汉语言教学上,还是在字典的编写上,甚至在计算机信息处理上,汉语言的通用词汇范围的准确界定都有着深远的意义。在某一时段内,通用词汇既是一个相对稳定又是一个开放的集合,既是一个相对动态又是一个静态的集合;传统的统计方法以及语言学家的经验法则等等都根本无法给与通用词汇准确界定。因此把计算机应用到具体语言学的通用词汇提取领域,就更体现其应用价值和意义。运用“语料库”的科学数据方法来研究语言已经成为必然的趋势和必要的手段。本论文选择的是基于中国主流报纸的动态流通语料库,动态性和流通性是其本质特征。动态流通语料库的“动态性”贯穿着“历时中包含着共时”和“共时中包含有历时”的语言知识变化原则。也就是说,这种语料库既可以提供语言的共时描写,也可以提供语言的历时描写。流通性体现在栏目信息尽可能多样的报纸,发行地区应尽可能多样,语料的覆盖量要足够大。本论文主要做了以下工作:1.原始语料领域分类(自编程序)用程序实现按照报纸语料的栏目信息,将原始语料分为10类,分类结果见表4-3。2.原始语料格式转换(自编程序)原始下载语料为HTMLHML网页格式,需要按/领域分类/媒体/年月分别将原始语料转化为纯文本格式语料,同时应该滤除网页格式中的垃圾信息,只保留有效的文本信息内容。转换后文件格式为xml文件。3.文本文件切分词(引用程序)、入库(自编程序)按领域分类/媒体/年月分别将文本文件切分成词,将切分后的文件以词语为单位导入到数据库中等待进一步处理,实验时数据库软件使用的是SQL Server7.0。4.对其进行校对使用自行开发的人工校对系统(java语言编写)进行检查式校对,对其上面分词中不可避免的错误进行纠正,使结果更科学更准确。5.词汇统计计算每个词按月“词频度”、“领域通用度”、“时间通用度”。实验时使用的软件是微软的excel 2003。6.通用词汇提取按照词语的年“词汇通用度Ok”降序排序,提取通用词汇表,使通用词汇表中词语的总词次能覆盖全部语料词语总词次的85-95%。(本文来源于《内蒙古师范大学》期刊2008-06-11)
陈慧[6](2008)在《基于DCC动态流通语料库的中文组织名考察与研究》一文中研究指出中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。本文取得了以下较有特色的研究成果:一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。中文组织名资源库包括叁个主数据库和五个子数据库。叁个主数据库是:①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。五个子数据库分别是:①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及叁大实词中的禁用词。④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。叁、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的叁类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。(本文来源于《北京语言大学》期刊2008-05-01)
唐长宁,张志平,赵小兵[7](2008)在《面向现代汉语动态流通语料库的html To xml转换工具的设计和实现》一文中研究指出分析了目前HTML与XML格式的特点及现有的html to xml转换软件的不足,给出面向现代汉语动态流通语料库的html To xml软件的设计和实现过程.编码过程利用面向对象思想,使用Java编程语言,可以实现跨平台运行.用测试用例对软件做了相应测试,达到了预期效果.(本文来源于《内蒙古师范大学学报(自然科学汉文版)》期刊2008年01期)
刘长征[8](2008)在《基于动态流通语料库(DCC)的新词语监测》一文中研究指出新词语监测是语言监测研究的重要内容之一。本文以动态语言知识更新理论为指导,探讨了利用动态流通语料库进行新词语监测研究的基本思路和基本方法,对语言监测意义上的新词语及相关概念进行了界定,并报告了初步的实验结果。(本文来源于《长江学术》期刊2008年01期)
陈慧,董守志,张普[9](2007)在《基于动态流通语料库(DCC)的中文组织名简称考察与研究》一文中研究指出基于动态流通语料库,构建了一系列组织名简称数据库,并对其进行了校对、各项统计、用字分析和缩略规律的初步考察。(本文来源于《中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集》期刊2007-10-01)
刘长征,秦鹏[10](2007)在《基于中国主流报纸动态流通语料库(DCC)的成语使用情况调查》一文中研究指出本文在中国主流报纸动态流通语料库(DCC)的基础上,对2005年中国15种主流报纸的全部语料四字成语的使用情况进行了调查。文章还对成语的用字进行了统计,并分析了此次调查存在的问题及还需进行的工作。(本文来源于《语言文字应用》期刊2007年03期)
动态流通语料库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
放置类动词是现代汉语词汇中的一个类义词群,因其在句法语义方面所特有的属性得到语言学界的关注。借鉴前人研究类义词群的方法,对高频单音节放置类动词进行了句法、语义、认知等多方面的研究。在界定方面,结合意义和形式两方面提出了单音节放置类动词的标准,确定了研究对象——从动态流通语料库中提取出12个高频单音节放置类动词。在句法方面,一方面着重考察了高频单音节放置类动词表达的静态功能,其主要通过叁种句法格式:NP被放置物+V+在+NP空间位置、NP被放置物+在+NP空间位置+V+着、NP空间位置+V+着+NP被放置物表现出来。另一方面分析了高频单音节放置类动词所强制携带的语义成分在句法层面上的映现情况,这主要通过客体成分的前移和与体成分的前移及后移表现出来。在语义上,一方面运用义素分析法对12个高频单音节放置类动词进行了分析,归纳出该类义动词共同的语义特征;另一方面运用“词义成分——词义构成模式”考察12个高频单音节放置类动词词义的构成情况,据此分析了该类义词群内部成员语义上的差异。再一方面,探究了高频单音节放置类动词对语义成分的选择情况。最后,从认知的角度对高频单音节放置类动词进行了研究:构建了放置事件的认知图式,分析了放置事件所具有的特征;探究了放置事件的认知图式元素在词典释义中的运用情况;划分出放置事件的次范畴,并结合句法进行了进一步的分析。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
动态流通语料库论文参考文献
[1].胡秋红,陈倩.大型动态流通报刊语料库建设研究[J].开封教育学院学报.2015
[2].桑丛丛.基于动态流通语料库的高频单音节放置类动词研究[D].湖南大学.2012
[3].李艳娇,杨尔弘.基于动态流通语料库的连词考察[C].第五届全国青年计算语言学研讨会论文集.2010
[4].韩秀娟.基于动态流通语料库(DCC)的通用词语用字考察[C].数字化汉语教学进展与深化.2008
[5].唐长宁.基于现代汉语动态流通语料库的通用词汇自动提取方法研究[D].内蒙古师范大学.2008
[6].陈慧.基于DCC动态流通语料库的中文组织名考察与研究[D].北京语言大学.2008
[7].唐长宁,张志平,赵小兵.面向现代汉语动态流通语料库的htmlToxml转换工具的设计和实现[J].内蒙古师范大学学报(自然科学汉文版).2008
[8].刘长征.基于动态流通语料库(DCC)的新词语监测[J].长江学术.2008
[9].陈慧,董守志,张普.基于动态流通语料库(DCC)的中文组织名简称考察与研究[C].中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集.2007
[10].刘长征,秦鹏.基于中国主流报纸动态流通语料库(DCC)的成语使用情况调查[J].语言文字应用.2007