时间序列聚类分析中几种算法的研究及应用

时间序列聚类分析中几种算法的研究及应用

论文摘要

聚类是无监督机器学习方法之一,聚类数据可以帮助识别相似数据,为决策行为提供最佳方案。例如,预订出租车应用程序可以把客户数据进行聚类分析以匹配供求关系、检测电子商务交易的恶意订单类型或在约会应用程序中将客户分类等。为了得到聚类的最佳决策结果在各种的聚类分析都有自己的基本条件请求,当用错误的数据分析条件请求时会导致低质量的结果。因此,我们希望深入研究和比较这类数据。应用时间序列分析基于先前观测值的预测,将聚类分析和时间序列数据混合起来,以便更好地理解聚类分析,以达到服务广大公众的初心,同时还希望更多的专家学者在这一领域持续探索,以期未来在更广泛的领域应用。目前常用于描述金融市场中的数据,如数字货币、人民币兑美元汇率、上海证券交易所50指数(上证50)和泰国证券交易所50指数(泰证50)。本文主要研究金融时间序列数据的时间序列聚类算法比较,通过时间序列聚类分析研究金融市场的数据,得出不同数据集的最有效聚类算法,并验证了其合理性及有效性。本文主要内容如下:1、论文依次介绍了数据挖掘、机器学习、时间序列聚类的重要性以及相关的一些检验方法的基本原理,为文章开展正式研究奠定理论基础。2、论文综述了生物信息学、机器人学、医学、化学、手势识别、语音识别、跟踪、金融、生物特征学、天文学、制造学等领域的相关数据挖掘、机器学习和时间序列聚类研究。3、论文通过分析时间序列聚类的结构,包括距离测量、时间序列原型、聚类算法和聚类评价标准等几个部分。本文针对每个数据集分别设置了3种模式的聚类算法,如层次聚类、k-中心点划分聚类、K-形划分聚类和Tadpole划分聚类。我们使用轮廓索引(Silhouette index)、COP索引(COP index)、DB索引(DB index)、CH索引(CH index)和DB*索引(DB*index)等聚类评价方法来比较这些聚类算法是否有效性。4、论文在实证分析中,构建了关于数字货币、人民币兑美元汇率、上证50指数(上证50)和泰国证券交易所50指数(泰证50)的时间序列聚类分析。对每个时间序列数据集使用3种聚类算法模式比较,并用5个指标对聚类算法进行评价,以确定每个聚类算法的有效性。研究结果表明,层次算法是对于非等长度数据数字货币和上证50指数最有效的算法。另外,对于等长度数据所有货币兑美元汇率和泰国证券交易所50指数(泰证50),划分算法是最有效的。

论文目录

  • Acknowledgement
  • 摘要
  • Abstract
  • 详细摘要
  • 1.Introduction
  • 2.Time-series clustering
  •   2.1 Time-series representation
  •   2.2 Distance measurement
  •     Dynamic Time Warping(DTW)
  •     Shape-based distance(SBD)
  •   2.3 Time-series prototype
  •     Partition Around Medoid(PAM)
  •     Shape extraction
  •   2.4 Clustering algorithm
  •     Hierarchical clustering
  •     Partitional clustering,k-Medoid
  •     Partitional clustering,k-Shape
  •     Partitional clustering,TADPole
  •   2.5 Cluster evaluation
  •     Silhouette index
  •     COP index
  •     Davies-Bouldin index(DB)
  •     Davies-Bouldin star index(DBstar)
  •     Calinshi-Harabasz index(CH)
  • 3.Experiment result
  •   3.1 Dataset
  •     Cryptocurrency dataset
  •     Shanghai Stock Exchange50 Index(SSE50)
  •     Exchange rate currency dataset
  •     The Stock Exchange of Thailand50(SET50)dataset
  •   3.2 Cluster algorithm
  •   3.3 The time-series clustering experiment result
  •     The cryptocurrency clustering result
  •     The Shanghai Stock Exchange50 Index(SSE50)clustering result
  •     The exchange rate currency clustering result
  •     The Stock Exchange of Thailand50(SET50)clustering result
  •   3.4 Comparing time-series clustering result
  • 4.Conclusion
  • Reference
  • Appendix A:Result of time series clustering
  • Appendix B:R code sample
  • 作者简历
  • 学位论文数据集
  • 文章来源

    类型: 硕士论文

    作者: 陈美云(Duangrux Tangsirisakul)

    导师: 李金玉

    关键词: 时间序列聚类,机器学习,密码货币

    来源: 中国矿业大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展

    单位: 中国矿业大学

    分类号: F224

    总页数: 78

    文件大小: 15000K

    下载量: 518

    相关论文文献

    • [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
    • [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
    • [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
    • [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
    • [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
    • [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
    • [7].王嵬作品[J]. 当代油画 2017(07)
    • [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
    • [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
    • [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
    • [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
    • [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
    • [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
    • [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
    • [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
    • [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
    • [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
    • [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
    • [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
    • [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
    • [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
    • [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
    • [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
    • [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
    • [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
    • [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
    • [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
    • [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
    • [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
    • [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)

    标签:;  ;  ;  

    时间序列聚类分析中几种算法的研究及应用
    下载Doc文档

    猜你喜欢