面向图的分布式流计算关键技术研究

面向图的分布式流计算关键技术研究

论文摘要

近年来,图数据作为能够清晰地揭示数据关联关系的数据结构,成为了一种非常有表现力的数据形式,在社交网络分析和用户画像等领域都有着广泛应用。同时随着数据规模的不断扩大以及在线计算的提出,图中经常包含上千万个顶点和边,难以完全存储在内存中,也难以实时返回计算结果,因而面向图的流算法和分布式算法研究逐渐成为了研究热点。局部拓扑结构计数是分析复杂网络的一项极为重要的任务,其中的图中三角形计数算法得到了广泛关注,然而研究点集中在研究单机上的近似计数流算法,以及分布式架构下的三角形精确计数算法,而关于图数据流的分布式三角形计数流算法并未得到深入的研究。针对此问题,本文改进了当前性能最好的三角形计数流算法TRIèST,提出了三种分布式流算法以提升算法性能。主要利用分配策略划分了图数据流,使得各工作节点独立地估计子图数据流中的三角形个数。本文的主要贡献如下:1.基于对TRIèST-BASE的分析与研究,提出了分布式改进算法DVHT-b(Distributed Vertex Hashing TRIèST-BASE)。对图数据流中的边流,算法利用哈希函数将边的两个顶点编号映射为多机环境中的工作节点编号,从而通过比较两个映射值将边单播或多播至对应的工作节点中参与计算。同时通过计算每个三角形可以被计数的概率,得到最终的估计值,通过仔细的理论分析证明了算法实现了对图中三角形数量的无偏估计;2.基于对TRIèST-IMPR的分析和研究,提出了两种适用于多机环境的分布式改进算法——DEHT-i(Distributed Edge Hashing TRIèST-IMPR)和DVHT-i(Distributed Vertex Hashing TRIèST-IMPR)。DEHT-i利用哈希函数,通过预设的固定概率实现边与工作节点的映射,同时计算图流中每个三角形被计数的概率以估计图流中的三角形数量。DVHT-i利用哈希函数,通过比较顶点映射值将边单播或广播至各工作节点,并提出了分组分级聚合器的概念,快速有效地实现多工作节点估计值的聚合。理论分析证明了两种算法皆实现了对图数据流中三角形个数的无偏估计,且降低了估计算法的方差;3.实现了三种改进算法,并在各种真实世界的大规模图上进行了大量的实验,证明了本文提出的改进算法显著降低了现有单机流算法的估计误差。

论文目录

  • 摘要
  • abstract
  • 表0-1 全文符号对照表
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •     1.2.1 图计算框架相关研究
  •     1.2.2 面向图数据的流算法相关研究
  •     1.2.3 三角形计数算法研究
  •   1.3 本文的主要工作
  •   1.4 本论文的结构安排
  • 第二章 相关技术与理论介绍
  •   2.1 流数据处理简介
  •     2.1.1 流数据处理的挑战
  •     2.1.2 流数据处理常用技术
  •   2.2 图数据流介绍
  •     2.2.1 图模型相关概念简述
  •     2.2.2 图数据流模型简述
  •   2.3 MPI简介
  •   2.4 本章小结
  • 第三章 TRIèST-BASE算法的分布式研究
  •   3.1 TRIèST-BASE算法简介
  •     3.1.1 算法简介
  •     3.1.2 算法理论分析
  •   3.2 一种基于顶点哈希划分的分布式TRIèST-BASE算法
  •     3.2.1 DVHT-b算法的基本思想
  •     3.2.2 算法流程介绍
  •     3.2.3 算法理论分析
  •   3.3 本章小结
  • 第四章 分布式的TRIèST-IMPR算法研究
  •   4.1 TRIèST-IMPR算法简介
  •     4.1.1 算法简介
  •     4.1.2 算法理论分析
  •   4.2 一种以固定概率实现边的映射的分布式TRIèST-IMPR算法
  •     4.2.1 基本思想
  •     4.2.2 算法流程
  •     4.2.3 算法理论分析
  •   4.3 一种基于顶点哈希值对比映射边的分布式TRIèST-IMPR算法
  •     4.3.1 基本思想
  •     4.3.2 算法流程
  •     4.3.3 算法理论分析
  •   4.4 本章小结
  • 第五章 算法实现及实验结果分析
  •   5.1 实验环境
  •   5.2 实验数据集及评价标准
  •     5.2.1 实验数据集
  •     5.2.2 实验评价标准
  •   5.3 实验设置与结果
  •   5.4 本章小结
  • 第六章 总结与展望
  •   6.1 全文总结
  •   6.2 展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 余梦笛

    导师: 宋超

    关键词: 图数据流,图计算,三角形计数算法,分布式流算法,近似算法

    来源: 电子科技大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 电子科技大学

    分类号: O157.5

    总页数: 83

    文件大小: 1619K

    下载量: 51

    相关论文文献

    • [1].校长要有“静”界[J]. 华人时刊(校长) 2020(07)
    • [2].找准工作节点 创新方式方法——浙江省慈溪市总工会推进企业工会规范化建设的实践探索[J]. 工会信息 2013(06)
    • [3].云环境下基于SLA的工作队列调配算法研究[J]. 系统仿真技术 2015(04)
    • [4].云环境下基于SLA的工作队列调配算法研究[J]. 计算机与数字工程 2015(02)
    • [5].基于Storm的多租户槽感知调度策略[J]. 新疆大学学报(自然科学版) 2019(01)
    • [6].云计算中基于QoS的调配优化算法[J]. 太赫兹科学与电子信息学报 2015(03)
    • [7].解决总部员工职业倦怠的尝试 评《总部普通员工职业倦怠感最强》[J]. 中国药店 2019(11)
    • [8].单井节能达标管理的优化与应用[J]. 化工管理 2014(14)
    • [9].在体制内不光要懂得开会,还要懂得“听”会[J]. 黄金时代 2019(03)
    • [10].探索主题党日常态化模式实现党建与业务双提升[J]. 祖国 2019(18)
    • [11].而今迈步从头越——四川映电总厂11台机组全部恢复发电[J]. 四川水力发电 2012(04)
    • [12].storm平台下工作节点的内存电压调控节能策略[J]. 通信学报 2018(10)
    • [13].基于簇的可动态调整的分层负载均衡算法[J]. 东南大学学报(自然科学版) 2008(05)
    • [14].临汾财政:完善工作流程 加强制度建设 进一步引深“四提”活动[J]. 山西财税 2013(12)
    • [15].云计算与物联网的融合[J]. 科技信息 2012(04)
    • [16].部署和管理Kubernetes集群[J]. 网络安全和信息化 2019(02)
    • [17].营配一体 从容“赢”峰[J]. 国家电网 2016(07)
    • [18].基于时间同步的无线传感器网络覆盖控制优化算法[J]. 计算机应用研究 2012(01)
    • [19].省级农科院编制5年规划的有关问题探讨[J]. 农业科研经济管理 2010(04)
    • [20].大学生职业生涯规划探析[J]. 中外企业家 2009(22)
    • [21].一种能量有效的无线传感器网络覆盖控制算法[J]. 小型微型计算机系统 2011(02)
    • [22].模具项目随机预测系统的监视模型建立的探讨[J]. 机床与液压 2010(11)
    • [23].无线传感器网络的任意覆盖率节点配置[J]. 自动化学报 2008(12)
    • [24].举重若轻与举轻若重[J]. 党员干部之友 2010(11)
    • [25].基于数据相关性的无线传感器网络关联覆盖[J]. 计算机科学 2015(S1)
    • [26].Storm环境下基于权重的任务调度算法[J]. 计算机应用 2018(03)
    • [27].小城镇发展要定位于农村[J]. 城乡建设 2008(01)
    • [28].基于协同感知的传感器网络调度算法[J]. 计算机仿真 2015(02)
    • [29].运营监测与预警决策系统应用刍议[J]. 科技广场 2015(06)
    • [30].无线传感器网络中基于数据融合的覆盖控制算法[J]. 西北工业大学学报 2011(03)

    标签:;  ;  ;  ;  ;  

    面向图的分布式流计算关键技术研究
    下载Doc文档

    猜你喜欢