基于社交媒体的台风灾情信息抽取方法研究

基于社交媒体的台风灾情信息抽取方法研究

论文摘要

每年的台风灾害,都给我国人民的生命与财产安全带来严峻威胁。由于灾情的分散性,传统的灾害信息收集手段存在严重的滞后性,已无法满足政府部门及时开展救灾工作的需求。以Twitter、Facebook和新浪微博为代表的社交媒体,因其广泛的参与度、多源的传播方式和信息的时效性强等特点,能够有效地弥补传统大众媒体覆盖盲点。在灾害发生的第一时间,公众扮演社会传感器的角色,能通过网络及时发布灾害信息,对灾害应急决策具有参考价值。但由于社交媒体中的文本记录具有数据量大、非结构化、破碎度高、特征稀疏和口语化等特点,如何从该类数据中快速地挖掘优势信息,对台风灾害应急管理部门具有重要意义。针对该问题,本文基于台风灾害领域知识并结合自然语言处理技术(Natural Language Process,NLP)和地理信息系统(Geographic Information System,GIS),提出了一种面向台风灾害领域的社交媒体文本信息抽取和可视化分析方法。首先本文基于LDA主题模型(Latent Dirchlet Allocation,LDA)获得的微博文本主题信息,构建了台风灾害的微博数据分类体系,并设计了一种基于相似主题合并的微博文本快速分类方法,经训练集验证该方法总体分类准确率为75.1%;然后,针对社交媒体文本中蕴含的不同类别的灾损信息,本文基于台风灾害的领域知识对各个灾种特征词进行归纳,并针对微博文本表达的口语化问题,引入词向量模型扩展特征词汇,实现针对具体灾种较为全面的数据检索;最后,为进一步对数据检索结果进行整合,本文分析了微博文本中时空信息和台风灾情信息的表达特征,提出一种面向台风灾害领域的灾情信息表达框架,并构建了相应的标注体系,基于条件随机场模型(Conditional Random Field,CRF)识别文本中蕴含的时空信息和灾损信息,经验证在训练集的准确率、召回率和F值分别为90.3%、67.4%和77.2%,结合TF-IDF(Term Frequency-Inverse Document Frequency)算法在空间、时间和文本类别三个维度上对台风灾害相关微博数据进行信息聚合。基于上述方法,本文构建了基于微博数据的台风灾情信息抽取与可视化系统,并以2016年14号台风“莫兰蒂”为例,结合现实灾情新闻报道和相关文献,评估了该方法的可行性和结果的准确性。结果表明,本系统可以通过用户给定的关键词、事件类别和空间查询等交互方式,自动抽取相关灾情信息,通过事件地图和时间序列直观地展示灾情的时空分布和各类事件的发展趋势,可应用于提升灾害应急管理部门态势感知能力并辅助决策支持。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 相关领域研究进展概述
  •     1.2.1 信息抽取研究进展
  •     1.2.2 信息聚合研究进展
  •     1.2.3 社交媒体在灾害领域的应用研究进展
  •   1.3 研究目标、内容和技术路线
  •     1.3.1 研究目标
  •     1.3.2 研究内容
  •     1.3.3 技术路线
  • 第二章 社交媒体数据采集与预处理
  •   2.1 微博数据采集方法
  •     2.1.1 基于模拟登录技术的网络爬虫
  •     2.1.2 基于新浪开放平台的网络爬虫
  •   2.2 微博数据的采集方案
  •     2.2.1 关键词设定对微博搜索结果的影响
  •     2.2.2 台风灾害爬虫的关键词的设定和数据采集方案
  •   2.3 微博数据预处理
  •     2.3.1 微博网页数据解析
  •     2.3.2 中文分词
  •     2.3.3 词性标注
  •     2.3.4 停用词与无关词汇过滤
  •   2.4 本章小结
  • 第三章 微博文本蕴含事件的特征分析与抽取
  •   3.1 微博文本中事件特征的组成
  •   3.2 微博文本蕴含事件的表达特征分析
  •     3.2.1 事件时间特征的分析
  •     3.2.2 事件空间表达分析
  •     3.2.3 台风灾情度量特征分析
  •     3.2.4 灾害事件名称界定
  •   3.3 微博文本中台风事件表达框架
  •   3.4 微博文本中事件信息的抽取方法
  •     3.4.1 隐马尔科夫模型
  •     3.4.2 最大熵模型
  •     3.4.3 最大熵马尔科夫模型
  •     3.4.4 条件随机场模型
  •   3.5 基于CRF的事件属性信息抽取训练过程
  •     3.5.1 训练语料库的构建
  •     3.5.2 事件属性实体标注与标注集
  •     3.5.3 特征模板的选择
  •   3.6 基于CRF的事件属性信息抽取结果分析
  •     3.6.1 评测体系
  •     3.6.2 评测结果与结果分析
  •   3.7 本章小结
  • 第四章 微博短文本分类和信息聚合方法研究
  •   4.1 微博文本分类
  •     4.1.1 文本特征构造方法
  •     4.1.2 文本分类方法选择和类别确定
  •     4.1.3 基于相似主题合并的分类方法
  •     4.1.4 实验结果和结果分析
  •   4.2 微博文本信息聚合
  •     4.2.1 微博文本数据聚合方法
  •     4.2.2 不同维度的微博位置信息对比分析
  •   4.3 本章小结
  • 第五章 基于微博的台风灾情信息抽取与可视化原型系统研发
  •   5.1 基于微博的台风灾情信息抽取与分析原型系统设计
  •     5.1.1 用户分析
  •     5.1.2 功能需求分析
  •     5.1.3 系统结构
  •     5.1.4 开发环境
  •     5.1.5 功能模块
  •   5.2 核心功能模块的实现
  •     5.2.1 数据采集子系统
  •     5.2.2 数据预处理子系统
  •     5.2.3 数据分析子系统
  •     5.2.4 灾情感知与可视化子系统
  •   5.3 本章小结
  • 第六章 总结与展望
  •   6.1 研究总结
  •   6.2 创新点
  •   6.3 不足之处与展望
  • 参考文献
  • 攻读学位期间承担的科研任务与主要成果
  • 致谢
  • 个人简历
  • 文章来源

    类型: 硕士论文

    作者: 梁春阳

    导师: 林广发

    关键词: 台风灾害,信息抽取,条件随机场,社交媒体,主题模型,时空分析

    来源: 福建师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 气象学,气象学,计算机软件及计算机应用

    单位: 福建师范大学

    分类号: TP391.1;P444;P429

    DOI: 10.27019/d.cnki.gfjsu.2019.000990

    总页数: 108

    文件大小: 4353k

    下载量: 33

    相关论文文献

    • [1].抗击台风的身影[J]. 人民公安 2019(16)
    • [2].流花16-2/11-1台风发电机专题研究报告[J]. 科技创新导报 2019(23)
    • [3].台风纳沙和海棠的预报着眼点分析[J]. 气象 2020(01)
    • [4].异常北折台风“洛坦”与异常西折台风“奥玛”路径的对比及预报[J]. 热带海洋学报 2020(01)
    • [5].肇庆市台风影响及预报预警服务工作刍议[J]. 广东气象 2019(06)
    • [6].台风登陆前后气象因素对广州市儿科门诊就诊情况的影响[J]. 环境与职业医学 2019(12)
    • [7].北上台风对牡丹江地区汛期降水的影响[J]. 黑龙江气象 2019(04)
    • [8].中国台风科研业务百年发展历程概述[J]. 中国科学:地球科学 2020(03)
    • [9].潍坊市在应对台风中的防汛测报措施分析[J]. 山东水利 2019(12)
    • [10].台风“康森”产生的海洋近惯性能量的数值模拟研究[J]. 热带海洋学报 2020(02)
    • [11].基于春季气候信号的“台风是否经过江苏”预测研究[J]. 气象科学 2020(01)
    • [12].台风“纳沙”期间广西近岸风暴射流产生与增减水异常现象[J]. 广西科学 2019(06)
    • [13].超级台风‘玛莉亚’的对流爆发特征及与快速加强的关系(英文)[J]. Atmospheric and Oceanic Science Letters 2020(02)
    • [14].减轻台风对城市绿化破坏的措施探究[J]. 四川水泥 2020(01)
    • [15].厦门220kV李西线台风倒塔分析研究[J]. 能源与环境 2020(01)
    • [16].近年来台风登陆台湾岛后路径偏折的若干统计特征[J]. 浙江气象 2020(01)
    • [17].台风大风半径业务产品的应用简析[J]. 广东气象 2020(01)
    • [18].揭阳市台风“山竹”过程的气象服务分析[J]. 广东气象 2020(01)
    • [19].抗台风窗户保护机械装置[J]. 河南科技 2020(02)
    • [20].面向台风应急救援的北斗卫星导航系统应用[J]. 信息通信技术与政策 2020(02)
    • [21].海南省台风特点与灾情评估时空关联分析[J]. 灾害学 2020(02)
    • [22].中国东南沿海区域台风数值模拟与危险性分析[J]. 海洋科学 2020(04)
    • [23].中国台风研究进展的可视化分析[J]. 防灾科技学院学报 2020(01)
    • [24].广东省台风预警信号发布和高级别停课预警信号特征[J]. 广东气象 2020(02)
    • [25].大气季节内振荡对夏季登陆广东台风的影响[J]. 广东气象 2020(02)
    • [26].台风型风电机组塔架轻量化设计研究[J]. 装备环境工程 2020(04)
    • [27].海上大兆瓦风电机组抗台风控制策略设计研究[J]. 应用能源技术 2020(03)
    • [28].不同路径台风影响下莆田内陆大风的特征分析[J]. 海峡科学 2020(03)
    • [29].台风对舟山某渔港工程码头波况影响的模拟[J]. 水运工程 2019(S2)
    • [30].台风与大树[J]. 思维与智慧 2020(03)

    标签:;  ;  ;  ;  ;  ;  

    基于社交媒体的台风灾情信息抽取方法研究
    下载Doc文档

    猜你喜欢