导读:本文包含了数据抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,文本,知识点,课程,结构化,分词,多边形。
数据抽取论文文献综述
吴付坤,肖丽,王华维[1](2019)在《面向大规模体数据集的复杂几何曲面抽取方法》一文中研究指出针对在大规模数据场中进行复杂几何曲面抽取的性能和精度问题,提出一种基于八叉树加速结构和多边形裁剪的几何曲面抽取方法.首先应用平面-体求交方程将体单元抽取问题转换到二维空间中,其中引入基于空间包围盒的八叉树结构以减少无效体单元的计算;然后提出面向凹凸多边形的裁剪方法和若干优化策略以有效地进行多边形裁剪计算;再引入数据集预筛选功能减少无效网格片读入以提升曲面抽取性能;最后将该方法集成到通用可视分析引擎中.实验结果表明,该方法能够高精度、高性能地从数值模拟程序生成的数据场中抽取复杂几何曲面的表面场值.(本文来源于《计算机辅助设计与图形学学报》期刊2019年11期)
牛毅,樊运晓,高远[2](2019)在《基于数据挖掘的化工生产事故致因主题抽取》一文中研究指出为充分挖掘化工生产事故数据中的有效信息和潜在规律,提高对化工事故认知水平,针对某化工集团2010—2016年共1 578起事故数据,利用社会网络分析等方法揭示事故要素间的关联关系;运用潜在狄利克雷分配(LDA)模型进行事故聚类,并抽取到5个事故致因主题。研究结果表明:LDA主题模型等数据挖掘技术能有效挖掘大量事故数据中的潜在信息; 5个事故致因主题中,4个涉及到人因或组织层面的缺陷;员工注意力不集中和现场风险管理不足这2个致因主题间具有较强相关性;员工注意力不集中、现场风险管理不足以及设备问题是导致事故发生的主要原因。(本文来源于《中国安全生产科学技术》期刊2019年10期)
卢淑祺,窦志成,文继荣[3](2019)在《手术病例中结构化数据抽取研究》一文中研究指出目前的手术病例都是以文本的方式记录的.这些文本中包含了大量对日后分析和挖掘有用的信息.通过对大量手术文本进行分析,对手术病例进行数据化和结构化,医院可以对整体病情趋势进行把握并挖掘大量对诊断有用的信息.而在针对具体病人确定手术方案时,也往往需要分析病人的历史病历,根据以前的手术情况来确定新的诊断方案.尤其对于肺部或胸腔的手术来说,确定历史手术的出血量、切除部位、切口数目以及切除范围等内容对医生制定新的手术方案具有重要意义.从历史病例中自动抽取出这些信息,将有效节省医生阅读病例的时间,进而可以让医生把更多的时间用于诊疗方案的制定上.本文重点研究胸腔手术病例中切口数量抽取问题.针对手术病例中并不直接包含切口数量以致无法直接抽取的难点,本文将切口数量抽取问题转换为文本分类问题.基于文本分类的思想,首先针对病例文本中的句子着手研究,先对文本进行分句处理,选择包含切口信息的句子作为切口描述句,并基于双向LSTM(长短期记忆神经网络,Long Short Term Memory)神经网络与Attention(注意力)机制构建分句切口数目提取模型,逐个判定文本中切口描述句所记录的切口数目,最后累加切口数目.此后本文进一步构建层次化切口数目提取模型,首先针对单个句子构建双向LSTM网络作为句子层,并对句子层的输出再次进行过滤作为段落层的输入,构建LSTM神经网络作为段落层,段落层的最终输出降维得出分类结果.实验结果表明,两种切口数目判定方法准确率均可达到98%,超出其他的多种文本分类模型如SVM(支持向量机)以及卷积模型(TextCNN),且后者可拓展性与整体性更佳.(本文来源于《计算机学报》期刊2019年12期)
岳玉波,马渊明,马凯,晏伟,黄丽娟[4](2019)在《OBN数据共反射点道集抽取技术》一文中研究指出由于双采集基准面所导致的时变反射点和复杂的动校走时等问题,常规的CMP迭加处理流程已经不再适用于OBN采集地震数据。为了解决该问题,我们提出了共反射点道集抽取技术。该技术首先通过均方根速度和震源、接收节点坐标信息来近似计算共反射点的空间位置,并将计算得到的共反射点划分到其临近的输出道的成像网格点上,然后利用双平方根公式来计算双程动校走时,并将输入道的振幅映射累加到输出道的成像网格点上。所输出共反射点道集,不但可以用于精确的迭加成像,还可以对均方根速度进行有效的迭代更新。合成数据的例子,验证了共反射点道集抽取技术的正确性和有效性。(本文来源于《中国石油学会2019年物探技术研讨会论文集》期刊2019-09-09)
杨兵,聂铁铮,申德荣,寇月,于戈[5](2019)在《一种面向医学文本数据的结构化信息抽取方法》一文中研究指出医学文本作为医疗领域重要的信息载体,为临床诊断和病理学研究提供了重要的数据支持,然而使用自然语言编写的文本数据往往是非结构化的,不便于机器理解和自动化处理.对于中文的医学文本数据而言,由于专业性强,需要丰富的领域知识,并且语法上多采用短句形式,这给结构化信息的抽取带来了巨大的挑战.为此,本文设计了一种针对医学领域的文本数据进行结构化信息抽取的方法,该方法首先通过文本聚类和关键词提取来获得医学描述语言中常用的表达术语,然后使用生成的医学术语库辅助中文分词处理,以提高中文医学文本的分词质量.然后,分析词与词之间的语义依存关系并随之构建依存句法树.最后,从该句法树中识别和抽取医学文本描述中的关键指标及其对应的指标值,最终得到结构化的键值对数据.本文采用真实的医学影像报告文本作为实验数据,实验结果表明该方法有效提高了中文医学文本的分词质量,准确率最高可达98. 24%,并在结构化的信息抽取中效果显着,具有最高83. 76%的准确率和88. 09%的召回率.本文提出的方法能覆盖多种依存语法,且有很好的适用性.(本文来源于《小型微型计算机系统》期刊2019年07期)
党帅,樊少勇[6](2019)在《招投标专家管理工作中大数据的探索研究——提升专家抽取质量和专业管理》一文中研究指出本文提出专家管理工作中的难点,运用大数据技术手段对专家抽取和专业管理中相关数据进行深度分析,挖掘数据中蕴藏的规律,并将这些规律应用于评标专家的规范和管理当中,为专家管理部门提供参考依据。(本文来源于《建筑市场与招标投标》期刊2019年03期)
刘焕[7](2019)在《肿瘤电子病历数据抽取与挖掘技术的研究与应用》一文中研究指出肿瘤疾病不仅是人类生命的杀手之一,也是医学史上难以攻克的难题之一。所以,对于肿瘤疾病的研究与探索对于人类具有重大意义。攻克肿瘤疾病难题的关键在于早发现、早治疗,进而提高肿瘤疾病的治愈率。随着大数据技术在医疗领域的不断应用,利用该技术实现肿瘤疾病辅助诊断对攻克肿瘤疾病难题意义重大。本文旨在探究肿瘤电子病历的数据抽取和挖掘技术,并在探究的基础上创建医疗辅助诊断系统,进而提高系统的诊断准确率及诊断效率,最终实现辅助医生诊断的目的。本文以某市叁甲医院肿瘤科5个G的电子病历数据为研究对象,对其进行数据挖掘分析实验,重点研究了对挖掘结果产生重要影响的两个阶段:数据抽取及挖掘实验探究阶段,并基于研究成果设计开发了医疗辅助诊断系统。研究的内容如下:(1)在数据抽取过程中,针对中文分词技术选用并改进了综合性能较高的逆向最大匹配中文分词算法,提高了肿瘤疾病数据的分词精确率及分词效率,为实体抽取阶段打下了良好的数据基础。(2)针对实体识别技术采用了一种基于条件随机场的多特征融合的中文电子病历命名实体识别方法,依次融合了词特征、词性特征、医学术语词库特征等五种特征进行医疗实体识别,并建立了7种自定义的外部语义词库作为部分特征支撑。实验证明选取的特征可行有效,且融合后的特征能够有效的提升实体识别的准确率。(3)在挖掘实验探究过程中,首先选用了分类效果较好的C4.5算法和BP神经网络算法分别进行分类挖掘实验;然后针对实验的不足,利用粗糙集算法对属性进行约简操作;最后又重新进行C4.5和BP神经网络的分类挖掘实验。通过以上四组实验,得到结果信息有:1)对比了两种算法的性能;2)验证了属性约简的有效性;3)发现了约简操作对C4.5促进性更强,进而得出经过属性约简之后的C4.5算法更适用于肿瘤电子病历的分类挖掘实验的结论。(4)设计并开发医疗辅助诊断系统,并将本文研究的数据抽取及挖掘技术的相关成果嵌入到系统内部,最终形成依托大数据技术的自动化医疗辅助诊断系统。总而言之,本文针对医疗肿瘤数据的特点,通过对数据挖掘过程各个环节的优化改进,探索出了一种更适合肿瘤电子病历的分类挖掘方式,并在此研究的基础上设计开发了医疗辅助诊断系统。该系统可以辅助医生进行肿瘤疾病诊断,帮助患者尽早发现肿瘤疾病,提高肿瘤患者的治愈率。(本文来源于《青岛科技大学》期刊2019-06-06)
李岩[8](2019)在《面向动态Web应用的数据采集与抽取技术研究与实现》一文中研究指出随着信息技术的发展,人类进入大数据时代,大数据分析不仅在商业竞争中至关重要,在公共事业领域,大数据在促进经济发展、维护社会稳定等方面也发挥着重要作用,政府部门加快大数据开发开放已经成为必然选择。但此前政务数据缺乏科学的管理和系统的规划,导致了政务数据源分散、数据相对割裂、应用和服务碎片化的情况,造成政务数据开放工作中高质量的数据源获取困难的问题,如何自动、高效地获取政务系统数据源成为近年研究热点。本文研究如何自动获取异构、独立的政务系统网站页面,在对政务系统网站进行协议和结构分析的基础上,提出一种基于事件模拟的动态Web页面采集框架,框架创新性地引入代理网关实现向目标网站中注入JavaScript代码,并采用内置原生浏览器的方式实现网页中JavaScript脚本解析和页面渲染。在采集策略方面,框架对已有研究中状态转换方法进行改进,最终实现对动、静态两种网站兼容的自动化页面采集方案。在此基础上,对政务系统中两种典型的半结构化信息:列表类信息和主题类信息的抽取,分别提出树对齐算法和文本密度算法。树对齐算法提出利用网页DOM树特性识别并分割数据记录,在将数据记录进行对齐时采用部分对齐的方式,相比现有工具极大提高了效率和准确性;文本密度算法基于主题类网页中有效信息文字密度与其他区域文字密度具有明显区别这一特性,抽取主题类页面信息。两种算法相互补充,为政务系统结构化信息抽取实现了有效的自动化方案。最后,论文选取多个政务网站展开实验,并与已有算法进行对比,证明了本文提出算法的有效性。(本文来源于《北京邮电大学》期刊2019-06-05)
姜书成,巩海方[9](2019)在《船舶AIS数据快速抽取研究》一文中研究指出随着时间的推移、航运经济的快速发展,以及AIS设备装船的数量的增加,中国沿海AIS岸基系统每年都产生海量的AIS数据,如何快速地从中找到所需的数据,成为迫在眉睫需要解决的问题。该文通过对AIS数据文件结构、AIS语句结构的研究,对比计算生成的特定船舶发出AIS报文起始字符串,大大地减少了解析数据量,从而提高了AIS报文抽取和解析效率。(本文来源于《科技资讯》期刊2019年16期)
李菲[10](2019)在《大数据环境下课程知识点抽取与组织方法研究》一文中研究指出随着教育大数据时代的来临,课程教材资源不断积累、种类迅速增加,课程知识不断更新变化,使得对大量课程教材资源中的知识点分析和知识点的高效选取变得愈加困难;课程教材组织形式多样,造成课程教材知识结构存在差异,使得对大量课程教材进行筛选和对教材进行有效编排组织更加艰难。因此,本文借助大数据提供的数据分析和技术支持,在研究了国内外关于课程知识点和课程知识组织方面的相关观点和方法之后,提出了一种大数据环境下的课程知识点自动抽取和知识组织的方法。该方法借鉴数据挖掘、文本挖掘等在教育数据挖掘中取得的成功经验,主要研究内容包括:首先,分析组成课程教材知识结构的知识点及知识点间关系组织的现状,借鉴大数据在教育中的应用,明确存在的问题和具体研究内容,结合大数据分析方法和技术,提出了一套大数据环境下的课程知识点抽取与组织体系建设框架;其次,深入研究细化理论和知识组织理论对教材内容分析的指导,分析课程教材知识结构特征及问题,建立课程知识组织模型;最后,采用基于混合策略的课程知识点抽取方法,结合规则匹配、无监督聚类、关键词抽取等方法抽取课程知识点,对抽取的课程知识点采用大数据融合的组织方法,逐本逐层计算课程知识点文本内容间的相似程度,依据文本内容的相似度增量式融合课程知识点,对融合的结果进行统计分析以发现规律,组织课程教材知识结构。结合细化理论研究内容对课程教材知识结构进行分析,发现课程教材知识结构的特征及存在问题,提出大数据环境下的课程知识点抽取和组织方法,解决了大量课程教材、不同课程教材知识结构下的课程知识点抽取和组织困难的难题,并以《教育心理学》课程教材为例进行方法实验,分析实验过程的结果,验证了各部分研究内容的有效性和可行性。从而,进一步帮助教学资源编排者和教学资源开发者、教师等分析、筛选、评价课程教材,学习者查找、学习相关知识点。(本文来源于《东北石油大学》期刊2019-06-03)
数据抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为充分挖掘化工生产事故数据中的有效信息和潜在规律,提高对化工事故认知水平,针对某化工集团2010—2016年共1 578起事故数据,利用社会网络分析等方法揭示事故要素间的关联关系;运用潜在狄利克雷分配(LDA)模型进行事故聚类,并抽取到5个事故致因主题。研究结果表明:LDA主题模型等数据挖掘技术能有效挖掘大量事故数据中的潜在信息; 5个事故致因主题中,4个涉及到人因或组织层面的缺陷;员工注意力不集中和现场风险管理不足这2个致因主题间具有较强相关性;员工注意力不集中、现场风险管理不足以及设备问题是导致事故发生的主要原因。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数据抽取论文参考文献
[1].吴付坤,肖丽,王华维.面向大规模体数据集的复杂几何曲面抽取方法[J].计算机辅助设计与图形学学报.2019
[2].牛毅,樊运晓,高远.基于数据挖掘的化工生产事故致因主题抽取[J].中国安全生产科学技术.2019
[3].卢淑祺,窦志成,文继荣.手术病例中结构化数据抽取研究[J].计算机学报.2019
[4].岳玉波,马渊明,马凯,晏伟,黄丽娟.OBN数据共反射点道集抽取技术[C].中国石油学会2019年物探技术研讨会论文集.2019
[5].杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统.2019
[6].党帅,樊少勇.招投标专家管理工作中大数据的探索研究——提升专家抽取质量和专业管理[J].建筑市场与招标投标.2019
[7].刘焕.肿瘤电子病历数据抽取与挖掘技术的研究与应用[D].青岛科技大学.2019
[8].李岩.面向动态Web应用的数据采集与抽取技术研究与实现[D].北京邮电大学.2019
[9].姜书成,巩海方.船舶AIS数据快速抽取研究[J].科技资讯.2019
[10].李菲.大数据环境下课程知识点抽取与组织方法研究[D].东北石油大学.2019