导读:本文包含了序列抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:事件抽取,序列标注,自注意力,金融舆情事件
序列抽取论文文献综述
李彦[1](2019)在《基于序列标注模型的事件抽取算法研究》一文中研究指出事件抽取是信息抽取领域重要的任务之一,其主要任务是从非结构化信息中抽取出结构化的事件信息。目前随着互联网的快速发展,互联网文本数据也呈现井喷式发展,因此抽取结构化事件信息有着极其重要的意义。事件抽取任务分为两个子任务:事件类型检测和事件论元抽取。传统方法将它们作为分类任务,主要分为串联和联合两种方式,依赖人工特征或深度学习来完成任务。本研究课题基于深度学习算法,以串联模型的方式,首次将两个子任务转换为两个序列标注任务,主要研究内容和研究成果如下:1)在事件类型检测任务中,提出一种基于先验知识和自注意力机制的序列标注模型。利用触发词先验知识来控制端到端模型的学习过程,提高模型的可解释性。先验知识帮助模型降低非触发词带来的噪声,增加候选触发词的权重。利用自注意力机制充分学习句子内部词语之间的相互依赖关系,解决串联模型事件触发词识别过程中不能充分利用事件论元信息的问题,进而提高了事件类型检测的准确性。2)在事件论元抽取任务中,设计一种基于自注意力机制的序列标注模型,根据已经检测出的事件触发词及对应的触发词信息,利用自注意力机制充分学习事件论元与触发词之间的关联程度,有效完成事件论元抽取任务。3)将事件类型检测任务拓展到金融领域。利用远程监督的方法,生成中文金融舆情事件数据集。然后在本研究课题所提出的事件类型检测模型中加入句子级注意力降噪机制,帮助模型学习更有效的远程监督标注数据信息,完成金融领域舆情事件类型检测。(本文来源于《北京邮电大学》期刊2019-05-31)
刘慧婷,刘志中,王利利,吴信东[2](2019)在《一般间隙序列模式挖掘的关键词抽取》一文中研究指出本文提出了有监督的关键词抽取算法——KEING(Keyphrase Extraction using sequentIal patterns with oNe-off and General gaps condition)算法.首先,将每篇文档作为一个序列库,利用SPING(Sequential Patterns mIning with oNe-off and General gaps condition)算法获取词语之间的关系及其多种变化形式,并利用统计模式特征的方式描述候选关键词;然后,通过朴素贝叶斯分类算法对大量带标记的训练数据进行训练,构造分类器;最后利用分类器从测试文档中识别出关键词.通过实验验证了SPING算法的完备性以及KEING算法的有效性.(本文来源于《电子学报》期刊2019年05期)
曾道建,童国维,戴愿,李峰,韩冰[3](2019)在《基于序列到序列模型的法律问题关键词抽取》一文中研究指出传统的关键词抽取算法不能够抽取那些没有在文本当中出现过的关键词,因此在抽取法律问题(短文本)的关键词任务上效果不佳。该文提出了一种基于强化学习的序列到序列(seq2seq)模型来从法律问题中抽取关键词。首先,编码器将给定法律问题文本的语义信息压入一个密集矢量;然后,解码器自动生成关键词。因为在关键词抽取任务中,生成的关键词的前后顺序无关紧要,所以引入强化学习来训练所提出的模型。该模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,在真实数据集上的实验结果表明,该模型在关键词抽取任务上有较好的效果。(本文来源于《清华大学学报(自然科学版)》期刊2019年04期)
余琴琴,彭敦陆,刘丛[4](2018)在《大规模词序列中基于频繁词集的特征短语抽取模型》一文中研究指出目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语.(本文来源于《小型微型计算机系统》期刊2018年05期)
金羽,戴紫彬,李伟,马超[5](2017)在《面向序列密码的高效能分层式比特抽取网络设计研究》一文中研究指出针对序列密码算法中抽取操作的可重构硬件实现资源消耗大的问题,通过研究序列密码中非线性布尔函数的变量需求,基于Inverse Butterfly网络提出一种高效能分层式比特抽取网络-HHBN(High-efficiency hierarchical bit-extraction network)。与其他网络进行对比,该网络可一次抽取出含有重复变量的多组数据,且不仅其实际性能与灵活度优于其他大多网络,面积消耗也远小于同灵活度的Crossbar网络。在Synopsys公司的Design Compiler进行了综合,实验结果表明与Crossbar网络在不同位宽实现相比,其面积减少约20%~50%,这就减少了实现不同序列密码算法抽取操作的可重构硬件资源消耗,从而提高了效能。(本文来源于《计算机应用与软件》期刊2017年12期)
喻鑫,张矩,邱武松,王飞[6](2017)在《基于序列标注算法比较的医学文献风险事件抽取研究》一文中研究指出医学文献快速增长,如何从医学文献文本大数据中挖掘出有价值的知识是一种巨大挑战。聚焦医学文献中定量风险语句的风险事件抽取,构建智能临床决策支持系统医学风险知识库。运用序列标注算法中重要的隐马尔可夫模型、最大熵马尔可夫模型和条件随机场叁种模型分别对医学文献非结构化全文文本中风险事件信息进行抽取,并对算法进行比较。从叁个模型平均F1测度值来看,条件随机场效果最好,其次为最大熵马尔可夫模型,然后是隐马尔可夫模型,但是每个模型都有自己对某些风险事件抽取的准确率或者召回率的优势。(本文来源于《计算机应用与软件》期刊2017年12期)
王东波,叶文豪,吴毅,刘伙玉,苏新宁[7](2017)在《基于多特征时间抽取模型的食品安全事件演化序列生成研究》一文中研究指出为了更深入地挖掘食品安全事件中的特征和规律,本文提出了食品安全事件时间演化序列自动生成方法。首先从食品安全事件的时间构成、时间表达式左右边界特征、时间常用词叁方面分析了食品安全事件时间的表达特征。基于时间表达式的多种特征,采用基于条件随机场模型的方法对时间表达式进行识别,F值最高达90%。然后以含有时间表达式的"句"为单位,将一个事件分为多个"时间-事件"的组合,最后采用基于时间戳的逆向匹配法生成事件时间演化序列。该方法可用于分析食品安全事件的发展脉络与特征,以期为政府实施食品安全事件监控提供理论与技术支撑。(本文来源于《情报学报》期刊2017年09期)
苏焕程,张君,陈昌云,程亦涵[8](2017)在《一种基于最长路径的脉冲序列抽取算法》一文中研究指出针对传统的动态关联算法在脉冲序列抽取方面存在的不足,提出了一种基于最长路径原理的脉冲序列抽取算法。该算法首先将待抽取的脉冲序列转换为一个经过拓扑排序的有向无环图,然后求解该有向无环图的最长路径,最后根据该最长路径抽取出相应的脉冲序列。相比较于传统的动态关联算法,基于最长路径的算法性能受设置的容差大小的影响较小,可以有效地提高脉冲序列抽取的正确率,并且具有较高的稳定性,从而能够更好地满足信号分选算法的实际工程需要。仿真实验表明了该算法的有效性。(本文来源于《航天电子对抗》期刊2017年02期)
刘志中[9](2017)在《一般间隙序列模式挖掘及其在关键词抽取中的应用》一文中研究指出随着大数据时代的到来,出现了大量的序列数据,而当前研究的热点与难点是从其中挖掘出用户感兴趣以及有价值的信息。然而,目前大多数的研究都为非负间隙的序列模式匹配,对每个字符的出现顺序有着严格的要求,限制了模式匹配的灵活性,降低了模式匹配的实用价值。关键词抽取是文本挖掘的重点问题,关键词是对一个文档中信息的概括与浓缩,但是目前的关键词抽取研究对抽取模式进行了严格的限制,不能够灵活的获取词语间的语义关系,导致不能对文档进行有效自主的关键词提取。因此,本文提出了一般间隙的序列模式挖掘算法并在关键抽取中进行应用研究,一般间隙的模式匹配研究不仅在理论上具有研究的价值,而且在生物信息学,文本挖掘等领域具有广泛的应用价值。本文是基于一般间隙与one-off条件的序列模式匹配,序列模式挖掘及其在文本领域中关键词抽取的应用进行研究。内容主要关于叁个方面:(1)同时具有一般间隙与one-off条件约束的序列模式匹配的算法设计及分析;(2)在序列模式匹配的基础上,进行一般间隙与one-off条件下的序列模式挖掘问题研究;(3)将一般间隙与one-off条件下的序列模式挖掘算法应用到文本信息挖掘中,通过挖掘出词语间的语义关系,进行关键词的抽取。本文主要的工作与创新点如下:(1)在序列模式匹配研究中,提出了一般间隙与one-off条件的序列模式匹配问题 SPMGOO(Sequential Pattern Matching with General gaps—and One-Off condition),在具有间隙约束的模式中允许子模式串之间的间隙为负值,同时加入了 one-off条件,允许序列串中任意位置的字符最多使用一次的精确的严格模式匹配。之后,通过理论证明了 SPMGOO问题为NP-Hard问题。并首次使用线性表解决SPMGOO问题,并且在模式匹配的过程中首次提出对模式串的结构以及序列串中各字符频度进行分析,判断是否需要转置操作,使模式与序列达到最佳匹配状态。(2)在序列模式匹配研究中,提出了基于一般间隙与one-off条件的最大数目的序列模式匹配算法 MSAING(Maximum Sequential pattern mAtching wIth oNe-off and General gaps condition)。MSAING 算法首先采用 Reverse 策略判断是否需要转置操作;然后,利用线性表的结构进行模式匹配,具体分为定位阶段、Forward阶段、Backward阶段,使MSAING算法在模式匹配过程中消耗的时间和内存大大的减少,同时在Backward阶段使用回溯机制,使匹配的成功率大幅度提高;最后,提出了 inside—Checking机制判断模式串是否会产生内部重复现象,以及如果产生内部重复会在模式串的哪个位置产生,从而有效的提高了MSAING算法的运行效率。并首先从理论上证明了 MSAING算法比目前已有算法具有更好的完备性,对于不含重复的模式能够取得完备解。其次,本文在真实的生物数据集以及文本上,与DCNP等多种相关的改进算法进行了对比实验,通过实验结果验证了 MSAING算法具有较高的准确性,和较低的时空复杂度,并对实验结果及其意义进行了分析。(3)在序列模式挖掘研究中,提出了一般间隙与one-off条件的序列模式挖掘算法 SPING(Sequential Pattern mIning with oNe-off and General gaps condition)。SPING算法在一般间隙的条件下不仅能够获取不连续的序列模式,同时也可以挖掘出前后颠倒的频繁模式,提高了模式挖掘的灵活性。该算法获取模式更加完备的解,从而挖掘出更加真实的信息,并通过在生物序列及其对比实验验证了该算法的有效性。(4)在关键词抽取研究中,提出了关键词抽取算法KEING(KeyphraseExtraction using sequentIal patterns with oNe-off and General gaps condition)。一般间隙能够更有效的获取词语,词组之间的语义关系,因此利用SPING算法进行序列模式挖掘,能够更好的获得候选关键词,并统计模式候选关键词的特征值,利用有监督的机器学习在特征集合中训练,构造分类模型,抽取关键词。通过大量的实验证明了该方法能有效的提高关键词抽取的质量。(本文来源于《安徽大学》期刊2017-03-01)
陈韬,马超,罗兴国,李伟,常忠祥[10](2015)在《面向序列密码的比特级抽取指令研究与设计》一文中研究指出针对通用处理器中比特级操作效率低下的问题,提出了一种面向序列密码算法的比特级抽取指令,并构造了与之相应的硬件单元。将该单元在CMOS 0.13μm工艺下完成综合,同时通过NIOSⅡ扩展指令的方式把设计的专用指令加入到处理器中进行了性能评估。结果表明:该指令的加入并不影响处理器的处理器频率,与未经扩展指令的嵌入式RSIC处理器相比,完成相同的抽取操作指令条数从250条减少为1条,有效地提升了序列密码算法的处理性能。(本文来源于《信息工程大学学报》期刊2015年01期)
序列抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文提出了有监督的关键词抽取算法——KEING(Keyphrase Extraction using sequentIal patterns with oNe-off and General gaps condition)算法.首先,将每篇文档作为一个序列库,利用SPING(Sequential Patterns mIning with oNe-off and General gaps condition)算法获取词语之间的关系及其多种变化形式,并利用统计模式特征的方式描述候选关键词;然后,通过朴素贝叶斯分类算法对大量带标记的训练数据进行训练,构造分类器;最后利用分类器从测试文档中识别出关键词.通过实验验证了SPING算法的完备性以及KEING算法的有效性.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
序列抽取论文参考文献
[1].李彦.基于序列标注模型的事件抽取算法研究[D].北京邮电大学.2019
[2].刘慧婷,刘志中,王利利,吴信东.一般间隙序列模式挖掘的关键词抽取[J].电子学报.2019
[3].曾道建,童国维,戴愿,李峰,韩冰.基于序列到序列模型的法律问题关键词抽取[J].清华大学学报(自然科学版).2019
[4].余琴琴,彭敦陆,刘丛.大规模词序列中基于频繁词集的特征短语抽取模型[J].小型微型计算机系统.2018
[5].金羽,戴紫彬,李伟,马超.面向序列密码的高效能分层式比特抽取网络设计研究[J].计算机应用与软件.2017
[6].喻鑫,张矩,邱武松,王飞.基于序列标注算法比较的医学文献风险事件抽取研究[J].计算机应用与软件.2017
[7].王东波,叶文豪,吴毅,刘伙玉,苏新宁.基于多特征时间抽取模型的食品安全事件演化序列生成研究[J].情报学报.2017
[8].苏焕程,张君,陈昌云,程亦涵.一种基于最长路径的脉冲序列抽取算法[J].航天电子对抗.2017
[9].刘志中.一般间隙序列模式挖掘及其在关键词抽取中的应用[D].安徽大学.2017
[10].陈韬,马超,罗兴国,李伟,常忠祥.面向序列密码的比特级抽取指令研究与设计[J].信息工程大学学报.2015