论文摘要
大数据时代的到来,使得互联网中数据体量巨大,数据类型丰富,其中网络中绝大多数的数据均为非结构化数据。在非结构化数据中,文本与音频、视频及图片相比,其信息价值及性价比都是相对较高的。网络文本数据中,新闻资讯作为大众获取信息的主要来源,随处可见。近些年,利用传统的结构化数据已逐渐满足不了研究需求,开始出现对如新闻文本等非结构化数据的分析和挖掘。在文本数据中,词与词之间存在着强弱不同的语义关联,本文采用的研究方法是将其转化为文本语义网络进行后续分析,利用网络信息来进行模型预测。在理论应用上,本研究将整套方法创新性地推广到金融投资领域,选取黄金期货价格相关新闻作为实验对象。在金融投资市场,黄金期货作为一种成熟的黄金衍生品,备受投资者的青睐,其价格的变动影响着投资者的决策,同时也是投资者关注的焦点。因此,预测黄金价格成了学术界近几年的热门研究课题。本文主要基于爬取到的黄金期货相关的新闻文本进行探索性分析,以利用非结构化的新闻文本数据来预测黄金期货价格为研究目标,一方面可将无法评估量化的关键词作为变量加入模型中,增强模型的可解释性,另一方面对关键词构成的加权文本网络进行分析,进一步将网络信息加入预测模型中,有助于模型的预测。其中具体的研究内容如下:首先,基于Python爬虫技术从网络中爬取了近9年与黄金期货相关的新闻,和对应时间段内的黄金期货价格;接着,基于R软件文本挖掘方法,对爬虫得到的文本数据进行清洗等预处理,通过文本分析将新闻文本处理成文本词汇矩阵;进一步,基于WGCNA算法,利用文本词汇矩阵进行加权网络分析,探究网络的性质和结构,分析网络性质随时间的动态变化,并利用Gephi软件将网络结构可视化地呈现出来;最后,本研究用加入文本网络信息的SGLS-Logistic模型来预测黄金期货价格跌涨,并将其与Lasso-Logistic、MCP-Logistic模型作比较,证明其分类效果更优。
论文目录
文章来源
类型: 硕士论文
作者: 王瑞
导师: 马双鸽
关键词: 黄金期货,网络爬虫,文本处理,网络分析,模型
来源: 太原理工大学
年度: 2019
分类: 基础科学,经济与管理科学
专业: 数学,宏观经济管理与可持续发展,金融,证券,投资
单位: 太原理工大学
分类号: F224;F831.54;F831.53
总页数: 70
文件大小: 5124K
下载量: 200
相关论文文献
- [1].云计算下各分散文本数据的全方位集成融合方法[J]. 科技通报 2019(02)
- [2].伴随文本:透视网络文学发展的重要路径[J]. 百家评论 2019(04)
- [3].不确定噪声下海量文本数据的模糊挖掘算法研究[J]. 微电子学与计算机 2017(09)
- [4].陈运文:做文本数据领域的“先知”[J]. 张江科技评论 2020(01)
- [5].基于新词识别的大数据聊天文本舆情热点挖掘[J]. 电子商务 2018(01)
- [6].病理镜检文本数据的结构化处理方法[J]. 计算机与现代化 2016(04)
- [7].基于深度学习的文本分类系统关键技术研究与模型验证[J]. 电信科学 2018(12)
- [8].大文本数据快速分析统计理论与算法[J]. 电子元器件与信息技术 2019(01)
- [9].一种面向网络长文本的话题检测方法[J]. 工程科学学报 2019(09)
- [10].基于社交平台数据的文本分类算法研究[J]. 电子科技 2018(10)
- [11].一种面向不完全标记的文本数据流自适应分类方法[J]. 计算机科学 2016(12)
- [12].多元化文本数据的智能提取[J]. 测绘与空间地理信息 2015(09)
- [13].文本分类研究综述[J]. 数据通信 2019(03)
- [14].基于向量表示和标签传播的半监督短文本数据流分类算法[J]. 模式识别与人工智能 2018(07)
- [15].基于文本数据分析的大数据审计方法研究[J]. 中国注册会计师 2018(11)
- [16].基于文本情感分析的电商在线评论数据挖掘[J]. 统计与信息论坛 2018(12)
- [17].基于弱监督深度学习的文本聚类算法及应用[J]. 计算机应用与软件 2019(04)
- [18].时态文本数据流特征流行趋势模型及算法[J]. 计算机科学 2019(S1)
- [19].基于MapReduce技术的海量文本数据统计方法研究[J]. 山东英才学院学报 2017(04)
- [20].深度学习在文本表示及分类中的应用研究[J]. 电脑知识与技术 2019(16)
- [21].大规模文本数据的分类系统的设计与实现[J]. 现代计算机(专业版) 2012(25)
- [22].文本分析法在教育研究中的应用[J]. 国际公关 2019(08)
- [23].汽车行业文本信息炼金术[J]. 经营者(汽车商业评论) 2018(06)
- [24].公司披露文本分析研究进展[J]. 现代经济信息 2018(02)
- [25].基于可信语义深度学习的文本文献搜索方法[J]. 计算机工程与应用 2019(03)
- [26].基于Word2Vec的微博文本分类研究[J]. 计算机系统应用 2019(08)
- [27].文本情感分类方法的分析[J]. 电子世界 2018(03)
- [28].结合文本信息量和聚类的文本裁剪算法[J]. 计算机工程与设计 2018(03)
- [29].面向政务文本数据的事件级时空模型研究[J]. 江西科学 2019(06)
- [30].基于文本价格融合模型的股票趋势预测[J]. 数据分析与知识发现 2018(12)