论文摘要
物理海洋数据具有多维、时空和海量等特征,主要以NetCDF结构化文件格式进行存储。然而,在分布式环境中,结构化文件存在数据块寻址困难、边界不易判定等问题,制约着大数据场景下的存储及应用。论文设计基于HDFS+Spark的NetCDF物理海洋数据云存储方案,首先采用HDFS分布式存储技术存储和管理物理海洋数据;并设计基于Spark并行计算框架的数据分片方案,复写读取接口获取分布式环境下的NetCDF文件数据块地址,实现了物理海洋数据的高效率存储与查询分析。选取中国海域100 a时长的物理海洋数据进行波高-周期散布图统计实验。结果表明:在数亿级记录数条件下,文中方法可将查询分析耗时由集中式文件存储方式的2 300 s缩短至50 s内,效率较集中式文件存储方式提升95%以上,验证了该方法的正确性和有效性。
论文目录
文章来源
类型: 期刊论文
作者: 夏伟,艾波,杨应召,尚恒帅
关键词: 物理海洋数据,并行计算框架
来源: 海洋技术学报 2019年04期
年度: 2019
分类: 基础科学
专业: 海洋学
单位: 山东科技大学海岛(礁)测绘技术国家测绘地理信息局重点实验室,苏州工业园区测绘地理信息有限公司,青岛阅海信息服务有限公司
基金: 国家重点研发计划资助项目(2017YFC1405006),国家自然科学基金资助项目(41401529)
分类号: P714
页码: 71-78
总页数: 8
文件大小: 405K
下载量: 121