为解决北京水务数据资源面临多源异构数据难以分析及数据集成困难等难题,在分析北京水务数据资源的基础上,采用大数据和云计算等相关技术进行北京水务数据资源的有效融合。针对北京水务的结构化及非结构化数据,研究相应的数据抽取、转换及存储的技术,提出基于水务数据资源融合的技术架构,其中结构化数据抽取使用D2RQ工具,非结构化数据的抽取使用jieba分词工具及tf-idf权重算法,并进行实验验证,证明该套技术方案的可行性与可信度,在数据存储模块采用基于云计算的分布式数据存储技术,用于存储融合后的海量数据。研究的数据资源融合技术方案能够帮助提高北京水务数据资源的融合效率与应用能力。
类型: 期刊论文
作者: 唐锚,高凯丽,张小娟
关键词: 北京水务,大数据,云计算,多源异构数据,数据资源融合
来源: 水利信息化 2019年06期
年度: 2019
分类: 工程科技Ⅱ辑,信息科技
专业: 水利水电工程,计算机软件及计算机应用
单位: 北京工业大学
分类号: TP311.13;TV21-39
DOI: 10.19364/j.1674-9405.2019.06.003
页码: 9-17+22
总页数: 10
文件大小: 4579K
下载量: 209
本文来源: https://www.lunwen90.cn/article/aa6f478b300a8ec7bff3603b.html