语料库标注论文_王歆,孔繁霞

导读:本文包含了语料库标注论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:语料库,汉语,语料,蒙古语,情感,中介,评价。

语料库标注论文文献综述

王歆,孔繁霞[1](2019)在《语料库标注关联分析在EAP测试中的应用研究》一文中研究指出本研究通过设计一种对语料库进行标注关联分析的方法,借助程序计算EAP课程相关专业中专业词汇、短句、子句之间的关联度,达到提升语料库在EAP学术英语测试中的专业划分能力。该实证研究结果反映了工科院校学习者对学术英语课程的学习需求,学习者也肯定了EAP课程对其专业学习技能有一定的提升作用。同时,测试数据分析结果显示:该方法的应用对于EAP学术英语课程的测试和评估学习者在语言学习与专业学习相结合方面有一定的帮助,从而提高学习者的语言实际运用的能力。(本文来源于《高校实验室科学技术》期刊2019年02期)

赵焕改,林君峰[2](2019)在《关于汉语中介语语料库标注代码的思考》一文中研究指出目前汉语中介语语料库标注代码设计没有统一标准,不同语料库的分词及词性标注代码和偏误标注代码不一致等问题,造成了语料共享困难及标注工具的重复开发。本文从汉语中介语语料库标注代码设计的问题出发,考察了目前具有代表性的四个汉语中介语语料库,分析了各库标注代码设计的优缺点,对汉语中介语语料库标注代码设计的原则及宜采用的标注代码系统提出了一些见解,以期为汉语中介语语料库标注代码设计的标准化提供参考。(本文来源于《海外华文教育》期刊2019年01期)

荆礼楠[3](2018)在《基于评价理论的产品评论情感语料库标注标准研究》一文中研究指出近年来,语料库语言学蓬勃发展,基于语料库的研究正在对语言研究的诸多领域产生愈来愈大的影响。为满足日益增长的需求,语料库建设正在国内外如火如荼地开展。随着计算机技术的快速发展及普及,机器可读已成为当代语料库的基本要求,而使语料库机器可读的关键在于语料标注——为提高计算机处理自然语言的能力,而为文本添加元信息的过程。然而,目前语料库建设各自为政,缺乏标注标准,语料库之间数据难以共享这一问题日益显现。因此,语料库建设团体开始关注语料标注标准问题。目前,语料库的发展正处在以互联网为语料的第四个发展阶段。随着Web 2.0的兴起,尤其是微博、论坛、社交及购物网站等网络媒介迅速崛起,用户可不受时间及地域限制,分享个人观点,自由表达情感。因此,互联网上迅速涌现出大规模主观性文本,其中蕴含着丰富情感。对于这类新型情感语料如何进行标注,引起了语言学家和计算机专家的共同兴趣。在此背景下,本文拟对此类新型情感语料的标注标准进行探索。本研究基于系统功能语言学的评价理论,对产品评论(观点丰富且相对容易操作)这一具有代表性的新型情感语料进行标注研究。主要研究问题如下:1.何种标注模型适合英文产品评论的情感标注?2.将系统功能语言学中的评价理论应用于英文产品评论的情感标注这一做法是否可行?为解决以上问题,本研究选取英文产品评论(亚马逊美国官网上的有效手机评论1000条,总计96330字)作为研究对象,结合产品评论自身特点,提出一个多参数情感语义标注模型,并参考James Pustejovsky和Amber Stubbs(2012)所提出的MATTER(Model-Annotate-Train-Test-Evaluate-Revise)自然语言标注流程,由两名经过相应培训的标注员,对语料手工进行情感标注,并对此模型不断进行修正完善。因此,所获得的标注不断接近黄金标准标注。研究发现如下:1.面向情感分析的产品评论情感标注模型应包含两类情感参数:1)核心情感参数,即从评价理论出发,根据针对产品评论特点修正后的评价理论框架而划分的情感态度类型;2)边缘情感参数,即主要面向情感分析的边缘性情感参数,包括意见持有者、关键词、目标、方面、情感极性标记和级差等参数。2.系统功能语言学的评价理论基本适用于情感标注,但在应用于产品评论这一偏口语化的特殊语类时,有必要对原来的理论框架进行一定的修正与完善:1)将级差系统中的语力(FORCE)和聚焦(FOCUS)合并。级差是影响情感强度的表达,考虑到产品评论的特点,为方便情感挖掘中褒贬义的计算,建议将级差按照知网(How Net)情感分析词典中的程度级别词语划分为五个等级:极低(-2)、低(-1)、中(0)、高(+1)和极高(+2);2)将判断(JUDGMENT)系统视为一个整体系统,不划分子类;3)将情感(AFFECT)子类划分标准中的快乐(HAPPINESS)和满意(SATISFACTION)合并,一并归为满意(SATISFACTION)范畴;4)情感(AFFECT)子类划分标准中的安全性(SECURITY)改为信任(TRUST);5)将SURPRISE单独归为情感(AFFECT)系统的一个次范畴。实验表明,评价理论基本适用于互联网上大量涌现的新型情感语料的标注,基于评价理论进行情感标注是可行的。本研究结合实际情况所提出的面向情感分析的多参数情感语义标注模型符合基本标注规范,可为情感语料标注提供一个参考标准。如上所述,本研究取得了一定研究成果,具有一定研究意义。其意义主要体现在:(1)本研究延伸并丰富了语料标注方面的研究,对实际标注过程具有一定的指导意义。(2)本研究对情感语料标注进行了探讨,有关成果可以为他人今后研究所借鉴,此外,在一定程度上为在工程层面开展大规模的标注积累经验,提供语言学依据及支持。(3)学界普遍认为,功能语言学是一种适用语言学。但是,在实际应用过程中,存在的缺陷之一就是对其理论框架的生搬硬套,而非根据具体情况进行修订、加以完善。本研究在应用研究中对理论发展本身进行了反馈。然而,本研究也存在不足,主要体现在:(1)由于有限的人力和物力,本研究标注的语料有限,只选取了手机评论,并且缺乏对其他语种的标注。因此,更多领域、更多语种的情感标注需要进一步研究。(2)对于标注标准的验证,本研究主要是通过标注者一致性的考查。此外,还有其他一些方法可用于验证标注标准,例如机器学习等。这值得进一步的探索。(本文来源于《江南大学》期刊2018-06-01)

刘玉安[4](2017)在《《语料库标注和分析中的计算机处理方法》介评》一文中研究指出本文是对《语料库标注和分析中的计算机处理方法》的介评。全书立足于当代语料库语言学研究领域前沿,运用最新的计算机手段,从对语料库,尤其是大型语料库中的词进行自动或半自动地标注和分析,到句子的标注和分析,再到语意、语用、话语中的计算机处理工具和方法,研究范围不断拓展,为当代语料库语言学研究提供了最新标注分析技术。(本文来源于《外语教育》期刊2017年00期)

伊再提·依斯买提[5](2016)在《现代维吾尔语依存语法语料库标注研究》一文中研究指出计算机语言学需要语言学理论,让计算机处理人类语言,需要一套切实可行的语言学理论。依存语法具备了现代语言学的词汇性、整体性、关系性、单层次性等特点,在计算机语言学中得到了广泛的运用,也助长了依存语法理论的发展。依存语法的重心在句中词语词之间的关系,以动词为核心词,直观的反映了句子的核心成分,更便于句法层面到语义层面的转换,更宜于处理自由语序的语言,而维吾尔语作为自由语序的粘着性语言,在依存语法中可以得到更好的阐释。近年来,英语、捷克语、俄语、日语、汉语、土耳其语、阿拉伯语等语言的依存语法树库相继建立,作为全球740万人通用的语言,维吾尔语依存语法树库的建立迫在眉睫。而建立依存树库的第一步是要有一套完整的依存标注体系作为标准。本文讨论了怎样用依存关系标注维吾尔语语料,即依存语法标注规范,并介绍了维吾尔语依存树库UDT1,2(Uyghur dependency Treebank)的建立。本文从以下几个方面进行了研究:(1)介绍了根据维吾尔语句子词间关系研制出的维吾尔语依存语法标注体系。(2)从句中短语出发,更详细地讨论了标注规范。(3)用统计的方法,在现已标注完的叁千多个句子的基础上讨论了标注距离、标注关系出现量等问题并进行词性分析。(4)现存在的若干问题与总结。(本文来源于《新疆大学》期刊2016-06-30)

邢富坤[6](2015)在《面向语言处理的语料库标注:回顾与反思》一文中研究指出语料库是语言处理的重要知识源,语料库标注则是挖掘语料库潜在价值的重要方法和途径。本文在已有语料库标注实践的基础上,总结分析了语料库标注的本质、作用与分类,并以词性标注为例详细说明了标注体系、标注规范、标注过程以及自动标注的主要方法,指出了目前语料库标注中存在的主要问题,并提出不能简单地将语言学的研究成果套用到语料库标注之中,而应以应用目标为指引,以实际应用为评价尺度开展语料库标注研究。(本文来源于《解放军外国语学院学报》期刊2015年03期)

通拉嘎[7](2015)在《面向智能信息处理的语料库标注质量影响因子——从《汉语人名拉丁转写方案》的设计谈起》一文中研究指出语料库是大量自然素材的有序集合,不仅为语言研究提供新的手段,也可以为自然语言信息处理相关研究提供重要支持。探讨了影响语料库标注的各种原因,以基于蒙古文语料库的《汉语人名拉丁转写方案》为例,分析了各项因子对语料库建设产生的作用,认为标注的规范化发展、标注的准确性、一致性、中立性、通用性是衡量语料库标注质量的关键因素。(本文来源于《图书馆学刊》期刊2015年01期)

肖奚强,周文华[8](2014)在《汉语中介语语料库标注的全面性及类别问题》一文中研究指出标注的全面性和类别问题是汉语中介语语料库建设中的两个重要问题,直接关系到语料标注的科学性和可行性:标注的全面性应从标注的广度、深度、角度和准确度四个维度展开,贪大求全而不注重标注角度、深度和准确度的粗颗粒标注是不可取的;就中介语语料库的特点而言,汉语中介语标注的类别应分为正确信息和偏误信息两类;标注赋码的类别应与标注内容的类别相匹配,并注意正确信息和偏误信息赋码内在的一致性和逻辑关系。(本文来源于《世界汉语教学》期刊2014年03期)

崔晓玲[9](2013)在《基于汉语网络新闻评论的情感语料库标注研究》一文中研究指出为揭示汉语网络新闻评论文档在情感表达上的特性,基于评价理论的态度系统,采用语义标注方法,试图从多角度揭示汉语情感语义表达的参数特征。研究发现汉语情感语义的表达呈现多参数性特征。该情感语料库不仅可为目前汉语情感计算提供结构性情感语义资源、方便机器学习、利于观点抽取和整合工作,还将会为现有计算机和语言学领域的汉语情感标注提供一种多参数的操作方法。(本文来源于《北京邮电大学学报(社会科学版)》期刊2013年06期)

山丹[10](2013)在《蒙古语言语语料库标注库建设方案》一文中研究指出蒙古语言语语料库是蒙古语语料库建设工程的重要组成部分和主要分库。标注和加工言语原始语料是蒙古语言语语料库建设中的一项重要任务。本方案是为了标注蒙古语言语语料库中的原始语料而设计的初步实施方案。本次标注主要借助计算机,利用语音分析软件对言语音段进行声学标注。此外还标注言语中出现的一些副语言学现象和非语言学现象以及其他语言词汇等。标注和加工后形成的蒙古语言语语料库音段声学标注库不仅填补相关领域的空白,而且将对蒙古语语音研究、蒙古语方言研究等基础研究提供大量的语音资料和语音声学特征信息,同时对蒙古语语音合成、语音识别、人机对话等言语工程研究具有重要应用价值和现实意义。(本文来源于《西部蒙古论坛》期刊2013年04期)

语料库标注论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目前汉语中介语语料库标注代码设计没有统一标准,不同语料库的分词及词性标注代码和偏误标注代码不一致等问题,造成了语料共享困难及标注工具的重复开发。本文从汉语中介语语料库标注代码设计的问题出发,考察了目前具有代表性的四个汉语中介语语料库,分析了各库标注代码设计的优缺点,对汉语中介语语料库标注代码设计的原则及宜采用的标注代码系统提出了一些见解,以期为汉语中介语语料库标注代码设计的标准化提供参考。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

语料库标注论文参考文献

[1].王歆,孔繁霞.语料库标注关联分析在EAP测试中的应用研究[J].高校实验室科学技术.2019

[2].赵焕改,林君峰.关于汉语中介语语料库标注代码的思考[J].海外华文教育.2019

[3].荆礼楠.基于评价理论的产品评论情感语料库标注标准研究[D].江南大学.2018

[4].刘玉安.《语料库标注和分析中的计算机处理方法》介评[J].外语教育.2017

[5].伊再提·依斯买提.现代维吾尔语依存语法语料库标注研究[D].新疆大学.2016

[6].邢富坤.面向语言处理的语料库标注:回顾与反思[J].解放军外国语学院学报.2015

[7].通拉嘎.面向智能信息处理的语料库标注质量影响因子——从《汉语人名拉丁转写方案》的设计谈起[J].图书馆学刊.2015

[8].肖奚强,周文华.汉语中介语语料库标注的全面性及类别问题[J].世界汉语教学.2014

[9].崔晓玲.基于汉语网络新闻评论的情感语料库标注研究[J].北京邮电大学学报(社会科学版).2013

[10].山丹.蒙古语言语语料库标注库建设方案[J].西部蒙古论坛.2013

论文知识图

语料库标注结构语料库标注工具2基于HMM的蒙古语语音合成系统Fig...语料库中术语标注结果2语音语料库标注系统流程图2.2...波形基频曲线音素层语调层音节层韵律层图1...

标签:;  ;  ;  ;  ;  ;  ;  

语料库标注论文_王歆,孔繁霞
下载Doc文档

猜你喜欢