融合知识库和文本信息的实体关系抽取研究

融合知识库和文本信息的实体关系抽取研究

论文摘要

随着互联网的发展和大数据时代的到来,生物医学文献的数量快速增长,如何从这些非结构化的文本中挖掘和整理实体关系成为人们目前迫切的需求。在生物医学领域,蛋白质实体交互关系抽取任务要求从非结构化的文本中抽取出存在交互关系的蛋白质实体对。该任务对于精准医疗、疾病发生机理、细胞稳态控制等都具有重大的意义。此外,生物医学知识库中包含了大量实体关系三元组的结构化信息。这些先验知识可以帮助我们识别复杂语义环境中蛋白质实体对的交互关系。本文探索融合知识库和文本信息方法,重点研究蛋白质交互关系抽取任务,主要研究内容如下:研究基于实体表示的蛋白质交互关系抽取。采用知识表示学习模型对知识库中的大量实体关系三元组进行学习,获得实体表示和关系表示。再利用深度学习模型将实体表示和文本信息进行融合,构建融合实体表示和文本信息的蛋白质交互关系抽取系统。实验表明,实体表示可以有效提升模型捕获与实体相关的上下文信息的能力,提升了关系抽取的精确率。研究基于关系表示的蛋白质交互关系抽取。基于知识库中一对蛋白质实体对应的关系表示,利用注意力机制抽取与实体关系相关的上下文特征,构建融合关系表示和文本信息的蛋白质交互关系抽取模型。实验表明,关系表示具有明确指向性信息,为模型提供了重要特征。注意力机制能进一步获取与实体关系相关的上下文特征,提高蛋白质交互关系抽取性能。研究基于记忆网络的蛋白质交互关系抽取。记忆网络由层级式的注意力机制构成,具有更优秀的全局信息抽取能力,能够捕捉序列中更多重要特征。本文研究利用记忆网络,逐层抽取上下文中与实体相关的全局信息,并进一步融合关系表示,构建深层的知识表示和文本信息相融合的蛋白质关系抽取模型。实验表明,记忆网络能够更好地利用先验知识对文本中的全局信息进行抽取,多层的记忆网络结构有助于蛋白质交互关系抽取性能的提升。文本的研究不但能有效提升蛋白质交互关系抽取的性能,而且提供了一种新颖的先验知识使用方法。本文方法也可以用于在其他任务中引入知识库,具有一定的普适性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究内容及意义
  •   1.2 国内外研究现状
  •   1.3 蛋白质交互关系语料库
  •   1.4 知识库
  •   1.5 评测指标
  •   1.6 本文主要工作
  •   1.7 本文组织结构
  • 2 关键技术概述
  •   2.1 卷积神经网络
  •   2.2 长短时记忆网络
  •   2.3 注意力机制
  •   2.4 记忆网络
  •   2.5 知识表示学习
  •   2.6 本章小结
  • 3 基于实体表示的蛋白质交互关系抽取
  •   3.1 基于实体表示蛋白质交互关系抽取系统
  •     3.1.1 系统概况
  •     3.1.2 语料预处理
  •     3.1.3 构建候选样例和词向量序列
  •     3.1.4 知识表示学习
  •     3.1.5 基于CNN的蛋白质交互关系抽取
  •     3.1.6 基于LSTM的蛋白质交互关系抽取
  •   3.2 基于实体表示的蛋白质交互关系抽取实验
  •     3.2.1 基于实体表示的蛋白质交互关系抽取系统性能
  •     3.2.2 知识库中的蛋白质实体统计数据
  •   3.3 本章小结
  • 4 基于关系表示的蛋白质交互关系抽取
  •   4.1 基于关系表示的蛋白质交互关系抽取系统
  •     4.1.1 系统概况
  •     4.1.2 基于门机制的蛋白质交互关系抽取系统
  •     4.1.3 基于关系表示特征的蛋白质交互关系抽取系统
  •     4.1.4 基于注意力机制的蛋白质交互关系抽取系统
  •   4.2 基于关系表示的蛋白质交互关系抽取实验
  •     4.2.1 基于关系表示的蛋白质交互关系抽取性能
  •     4.2.2 知识库中的关系三元组统计数据
  •   4.3 本章小结
  • 5 基于记忆网络的蛋白质交互关系抽取
  •   5.1 基于记忆网络的蛋白质交互关系抽取系统
  •     5.1.1 系统概况
  •     5.1.2 基于文本信息的蛋白质交互关系抽取
  •     5.1.3 基于实体表示和关系表示的蛋白质交互关系抽取
  •     5.1.4 后处理规则
  •   5.2 基于记忆网络蛋白质交互关系抽取实验
  •     5.2.1 基于记忆网络蛋白质交互关系抽取性能
  •     5.2.2 错误分析
  •     5.2.3 与相关研究的对比
  •   5.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 刘壮

    导师: 周惠巍

    关键词: 蛋白质交互关系,知识库,先验知识,深度神经网络,记忆网络

    来源: 大连理工大学

    年度: 2019

    分类: 基础科学,医药卫生科技,信息科技

    专业: 生物学,生物医学工程,计算机软件及计算机应用

    单位: 大连理工大学

    基金: 国家自然科学基金(No.61272375,No.61772109),教育部人文社会科学规划基金(No.17YJA740076)

    分类号: R318;TP391.1

    DOI: 10.26991/d.cnki.gdllu.2019.001740

    总页数: 76

    文件大小: 5971K

    下载量: 173

    相关论文文献

    • [1].实体关系抽取综述[J]. 计算机工程与应用 2020(12)
    • [2].小规模知识库指导下的细分领域实体关系发现研究[J]. 情报学报 2019(11)
    • [3].基于句法分析的实体关系抽取[J]. 科技风 2018(15)
    • [4].基于依存句法的实体关系抽取[J]. 电子技术与软件工程 2016(24)
    • [5].实体关系抽取研究综述[J]. 信息工程大学学报 2016(05)
    • [6].基于句法语义特征的中文实体关系抽取[J]. 中文信息学报 2014(06)
    • [7].基于句法语义特征的中文实体关系抽取[J]. 北方文学 2016(20)
    • [8].基于协陪义动词的中文隐式实体关系抽取[J]. 计算机学报 2019(12)
    • [9].面向食品安全事件新闻文本的实体关系抽取研究[J]. 农业机械学报 2020(07)
    • [10].基于双向门控循环单元和双重注意力的实体关系抽取[J]. 广东石油化工学院学报 2020(03)
    • [11].面向招投标领域的远程监督实体关系抽取研究[J]. 计算机工程与应用 2020(17)
    • [12].深度学习实体关系抽取研究综述[J]. 软件学报 2019(06)
    • [13].弱监督军事实体关系识别[J]. 电子设计工程 2018(01)
    • [14].基于三支决策的两阶段实体关系抽取研究[J]. 计算机工程与应用 2018(09)
    • [15].中文实体关系抽取研究综述[J]. 计算机与现代化 2018(08)
    • [16].基于规则和本体的实体关系抽取系统研究[J]. 情报杂志 2010(S2)
    • [17].基于卷积神经网络的旅游领域实体关系抽取[J]. 青海师范大学学报(自然科学版) 2019(04)
    • [18].面向医学文本的实体关系抽取研究综述[J]. 郑州大学学报(理学版) 2020(04)
    • [19].中文开放式多元实体关系抽取[J]. 计算机科学 2017(S1)
    • [20].基于实体关系的犯罪网络识别机制[J]. 计算机应用研究 2011(03)
    • [21].集成学习算法在实体关系抽取中的应用[J]. 西安建筑科技大学学报(自然科学版) 2011(03)
    • [22].中文实体关系抽取研究[J]. 计算机工程与设计 2009(15)
    • [23].实体关系识别中长距离依赖问题的研究[J]. 小型微型计算机系统 2008(02)
    • [24].基于单实体语言模型的实体关系发现和描述[J]. 信息工程大学学报 2008(03)
    • [25].实体关系抽取的技术方法综述[J]. 现代图书情报技术 2008(08)
    • [26].实体关系抽取方法研究综述[J]. 计算机研究与发展 2020(07)
    • [27].基于依存分析的军事领域英文实体关系抽取研究[J]. 情报工程 2019(01)
    • [28].面向中文开放领域的多元实体关系抽取研究[J]. 智能系统学报 2019(03)
    • [29].面向中文专利的开放式实体关系抽取研究[J]. 计算机工程与应用 2015(01)
    • [30].无指导的中文开放式实体关系抽取[J]. 计算机研究与发展 2015(05)

    标签:;  ;  ;  ;  ;  

    融合知识库和文本信息的实体关系抽取研究
    下载Doc文档

    猜你喜欢