Print

NetCDF物理海洋数据云存储技术研究

论文摘要

物理海洋数据具有多维、时空和海量等特征,主要以NetCDF结构化文件格式进行存储。然而,在分布式环境中,结构化文件存在数据块寻址困难、边界不易判定等问题,制约着大数据场景下的存储及应用。论文设计基于HDFS+Spark的NetCDF物理海洋数据云存储方案,首先采用HDFS分布式存储技术存储和管理物理海洋数据;并设计基于Spark并行计算框架的数据分片方案,复写读取接口获取分布式环境下的NetCDF文件数据块地址,实现了物理海洋数据的高效率存储与查询分析。选取中国海域100 a时长的物理海洋数据进行波高-周期散布图统计实验。结果表明:在数亿级记录数条件下,文中方法可将查询分析耗时由集中式文件存储方式的2 300 s缩短至50 s内,效率较集中式文件存储方式提升95%以上,验证了该方法的正确性和有效性。

论文目录

  • 1 云存储体系架构
  • 2 基于HDFS的分布式存储方案设计
  •   2.1 HDFS分布式存储系统搭建
  •   2.2 存储性能优化
  • 3 基于Spark的并行计算方案设计
  •   3.1 构建基于Spark的NetCDF分布式数据集
  •   3.2 分布式环境下NetCDF数据处理接口设计
  •   3.3 并行计算性能调优
  • 4 实验分析
  •   4.1 单点散布图统计
  •   4.2 区域散布图统计
  •   4.3 不同节点数统计效率对比
  • 5 结语
  • 文章来源

    类型: 期刊论文

    作者: 夏伟,艾波,杨应召,尚恒帅

    关键词: 物理海洋数据,并行计算框架

    来源: 海洋技术学报 2019年04期

    年度: 2019

    分类: 基础科学

    专业: 海洋学

    单位: 山东科技大学海岛(礁)测绘技术国家测绘地理信息局重点实验室,苏州工业园区测绘地理信息有限公司,青岛阅海信息服务有限公司

    基金: 国家重点研发计划资助项目(2017YFC1405006),国家自然科学基金资助项目(41401529)

    分类号: P714

    页码: 71-78

    总页数: 8

    文件大小: 405K

    下载量: 121

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/935dc5b06c5fd75307cfb8c8.html