生物医学本体支持的元数据异质性研究与标准化应用

生物医学本体支持的元数据异质性研究与标准化应用

论文摘要

背景:数据已经成为生物医学发展的重要驱动力,实现数据到知识转化的一个关键环节在于增强数据的机器可理解性。通用数据元素(common data element,CDE)的使用是提高机器对元数据理解的重要手段。随着生物医学领域可共享的数据越来越多,纳入到通用数据元素库中的数据元素也在迅速增长,探讨如何提升通用数据元素的质量对于促进数据的整合和共享具有重要的意义。方法:一方面,本研究根据ISO/IEC 11179标准建立了具有语义支持的CDE表示模型,并在模型的基础上,构建了可共享的、可重用的和具有语义支持的通用数据元素库。在本部分研究中,首先根据《国民体质与健康数据库》初步确定了库中的数据条,通过复用caDSR中的CDE以及新建方式形成CDE数据集;然后基于模型实现了CDE的OWL表示,并且借助于语义网工具实现了 CDE的质量检查;最后利用图数据库来存储文件,并提供SPARQL复杂查询功能。另一方面,本研究进行了生物医学领域元数据之间异质性的研究,建立了元数据之间可兼容性自动化的预测模型。在本部分研究中,首先从国际上使用广泛的公共数据库NCI caDSR中,选取了与临床试验关联度较高的流行病调查的数据元素,根据构建的CDE表示模型提取了数据元素的必要组分,在NCIT(National Cancer Institute Thesaurus)的支持下利用基于本体的语义相似度计算方法计算出每两个关联数据元素对应必要组分之间的相似度值。最后,基于CDE组分之间的相似度值,利用支持向量机(support vector machine,SVM)对相关数据元素之间的兼容性进行了预测。结果:本研究构建了数据元素通用用用表示模型。此模型以ISO/IEC 11179元数据标准的核心组分为基础,规定了利用本体术语实现语义标准化的方式,定义了这些核心组分之间的关系,并为数据元素分配唯一标识符,以OWL格式表示。利用此模型实现了《国民体质与健康数据库》中的数据元素的图数据库存储和检索。在caDSR数据库元数据异质性研究中,结果显示元数据的概念层存在较大的异质性。即使在人工判别认为可以实现数据统一的数据元素间,在概念层的定义上也存在有明显异质性。通过SVM实现了数据元素是否可以整合进行了判断,模型对于可直接整合、人工干预后可整合和不可整合三组判断的总体准确率为81.67%。结论:本研究建立了符合FAIR准则的数据元素通用表示模型,并以此为基础围绕《国民体质与健康数据库》数据元素,建立了可参考的通用数据元素库,为解决数据异质性造成的数据整合和共享的问题提供了一个初步的可行方案。针对目前CDE数据库中数据元素异质性严重,本研究构建了 CDE可兼容性的预测模型,为用户使用现有的CDE提供了工具支持。通过本研究,将为提升元数据质量,进而提升数据质量提供技术和工具的支持。

论文目录

  • 缩略语对照表
  • 摘要
  • Abstract
  • 第一章 前言
  •   1.1 生命科学数据管理与数据标准
  •     1.1.1 数据管理准则
  •     1.1.2 数据标准
  •   1.2 元数据管理
  •     1.2.1 ISO/IEC 11179标准
  •     1.2.2 caDSR元数据库
  •     1.2.3 TCGA元数据管理实例
  •   1.3 存在的问题
  •   1.4 本研究的内容和意义
  • 第二章 本体支持的通用数据元素库的建设
  •   2.1 背景
  •   2.2 材料和方法
  •     2.2.1 建立CDE的通用语义表示模型
  •     2.2.2 通用数据元素的收集
  •     2.2.3 通用数据元素的OWL表示
  •     2.2.4 COE质量审核
  •     2.2.5 图数据库的部署与实现
  •   2.3 结果
  •     2.3.1 语义模型
  •     2.3.2 通用数据元素集
  •     2.3.3 OWL表示结果文件
  •     2.3.4 CDE质量审核结果
  •     2.3.5 图数据库界面
  •   2.4 讨论
  •   2.5 小结
  • 第三章 元数据异质性评估模型的构建
  •   3.1 背景
  •   3.2 材料和方法
  •     3.2.1 数据与设计
  •     3.2.2 人工评估
  •     3.2.3 元数据异质性评估模型的实现
  •     3.2.4 数据元素推荐工具的开发
  •   3.3 结果
  •     3.3.1 人工评估结果
  •     3.3.2 两个数据元素对应组分的相似度计算结果
  •     3.3.3 元数据异质性评估模型结果
  •     3.3.4 数据元素推荐工具界面
  •   3.4 讨论
  •   3.5 小结
  • 第四章 总结和展望
  •   4.1 本研究的主要工作
  •     4.1.1 构建具有语义支持的通用数据元素表示模型
  •     4.1.2 实现通用数据元素集的OWL表达
  •     4.1.3 利用virtuoso图数据库实现存储和查询
  •     4.1.4 人工评估相关数据元素的语义相似度
  •     4.1.5 相关数据元素对应组分之间的相似度的计算
  •     4.1.6 元数据异质性评估模型的实现
  •   4.2 本研究的主要结论
  •   4.3 本研究的特点
  •     4.3.1 构建了本体支持的数据元素表示模型,并建立了CDE数据库原型
  •     4.3.2 利用本体研究caDSR数据库数据元素的语义异质性
  •     4.3.3 建立自动化的数据元素异质性评估模型和推荐工具
  •   4.4 展望
  • 参考文献
  • 附录 核心代码
  • 致谢
  • 个人简历
  • 文章来源

    类型: 硕士论文

    作者: 张璐璐

    导师: 杨啸林

    关键词: 元数据管理,通用数据元素,本体,语义网,机器学习

    来源: 北京协和医学院

    年度: 2019

    分类: 基础科学,医药卫生科技,信息科技

    专业: 生物学,生物医学工程,计算机软件及计算机应用

    单位: 北京协和医学院

    基金: 中国医学科学院医学与健康科技创新工程项目(2018-I2M-AI-009),国家重点研发计划(2017YFC0908404),国家人口与健康科学数据共享服务平台

    分类号: TP311.13;R318

    DOI: 10.27648/d.cnki.gzxhu.2019.000561

    总页数: 62

    文件大小: 4068K

    下载量: 57

    相关论文文献

    • [1].放射学常见的数据元素[J]. 国际医学放射学杂志 2017(04)
    • [2].数据元素的标准化方法(5)——数据元素标准化阶段[J]. 信息技术与标准化 2008(06)
    • [3].数据元素的标准化方法(6)——数据元素管理工具[J]. 信息技术与标准化 2008(08)
    • [4].专利数据元素分类及命名方案研究[J]. 标准科学 2012(09)
    • [5].数据元素的标准化方法(4)——数据元素的提取[J]. 信息技术与标准化 2008(05)
    • [6].中国专利数据元素的XML表示方法研究[J]. 标准科学 2012(09)
    • [7].操作风险高级计量法四类数据元素的整合和应用[J]. 新金融 2012(07)
    • [8].数据元素的标准化方法(1)——概述[J]. 信息技术与标准化 2008(Z1)
    • [9].数据元素的标准化方法(2)——命名、定义和标识[J]. 信息技术与标准化 2008(03)
    • [10].如何打造全能战士——Python的字典类[J]. 程序员 2008(10)
    • [11].基于面向对象方法的数据字典应用研究[J]. 信息技术与标准化 2012(09)
    • [12].本体支持的生物医学领域元数据异质性与可兼容性研究[J]. 中国生物医学工程学报 2019(03)
    • [13].云存储中基于ORAM的数据安全访问[J]. 微电子学与计算机 2014(06)
    • [14].S系列综合保障标准数据模型中的数据元素映射关系研究[J]. 指挥控制与仿真 2019(01)
    • [15].基于B+树的优化树查找技术[J]. 科学咨询(科技·管理) 2016(07)
    • [16].数据结构的定义及其相关术语[J]. 电脑编程技巧与维护 2011(10)
    • [17].数据元素的标准化方法(3)—数据元素的基本属性[J]. 信息技术与标准化 2008(04)
    • [18].基于标准数据元素与基本表的装备保障数据集成研究[J]. 现代电子技术 2009(06)
    • [19].试论网络信息安全技术[J]. 青少年日记(教育教学研究) 2016(07)
    • [20].高校图书馆超高频RFID数据模型规范研究[J]. 大学图书馆学报 2014(05)
    • [21].我国电子元器件分类应用现状及标准分析[J]. 信息技术与标准化 2010(11)
    • [22].文物信息资源规划的理论思考[J]. 中国新技术新产品 2009(20)
    • [23].江西联通信息资源整合中的数据元素标准化[J]. 科技信息 2011(26)
    • [24].长江航道数据资源规划[J]. 水运工程 2014(11)
    • [25].二路选择排序探讨[J]. 黄河科技大学学报 2009(06)
    • [26].外军战术数据链消息标准发展研究[J]. 空间电子技术 2015(06)
    • [27].数据元素及其在装备保障管理中的应用[J]. 四川兵工学报 2008(05)
    • [28].C++语言在数据结构中的运用分析[J]. 信息与电脑(理论版) 2020(13)
    • [29].跨部门政府信息资源共享标准构建研究[J]. 情报理论与实践 2010(12)
    • [30].一种哈希表快速查找的改进方法[J]. 计算机工程与科学 2008(09)

    标签:;  ;  ;  ;  ;  

    生物医学本体支持的元数据异质性研究与标准化应用
    下载Doc文档

    猜你喜欢