导读:本文包含了数据清洗论文开题报告文献综述、选题提纲参考文献,主要关键词:数据,过电压,爬虫,波形,带钢,一夜,网络。
数据清洗论文文献综述写法
陈钦柱,张涵,殷健,杨鸣,郑鹏程[1](2019)在《海量实测过电压数据智能自清洗方法》一文中研究指出系统过电压及其造成的事故屡见不鲜,严重威胁电网稳定性与安全性,因此,电网过电压数据的高效,准确获取是电网暂态分析和安全运行的重要保障。虽然相关研究已捕获了一定数量的过电压数据,但针对过电压数据采集与传输过程中数据库掺入错误、无效波形导致数据质量降低而无法实现有效应用的问题尚未解决。文中以某变电站实测过电压在线监测数据为研究对象,研究错误波形与真实过电压波形间的差异性规律,提出基于稀疏自编码、主成分分析(PCA)以及基于密度峰快速搜寻的聚类(CFSFDP)的海量过电压自动清洗方法。通过稀疏自编码与PCA实现电力系统实测波形降维与特征自提取,利用CFSFDP聚类方法实现无效、错误波形的有效隔离,创新性的构建海量过电压数据智能自清洗结构方法实现过电压数据预清洗与完全清洗,梯度式提高过电压波形数据库数据质量,数据质量提升的干净过电压数据库有利于进一步加深过电压产生与传播特性的认知。(本文来源于《高压电器》期刊2019年12期)
张荃,陈晖[2](2019)在《基于最小哈希的重复数据清洗方法》一文中研究指出大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。(本文来源于《通信技术》期刊2019年11期)
王握,李林,毛应萍[3](2019)在《电警数据清洗方法及数据在信号控制中的应用》一文中研究指出随着电警大规模建设使用,其过车数据成为感知交通参数的重要方式之一。基于此,本文依据视频检测的相关原理,总结分析视频过车数据存在的问题,提出了数据存在错误、冗余、缺失、异常四种典型问题的识别、修补的方法,形成了电警过车数据质量控制的标准化流程。同时,根据电警对交通流的感知,从时段划分、相位方案推荐两个方面给出了电警过车数据在信号控制中的典型应用。最后,通过对贵阳电警数据的分析处理以及在信号控制中的应用,验证了电警过车数据质量控制方法、数据应用方法的有效性。(本文来源于《品质交通与协同共治——2019年中国城市交通规划年会论文集》期刊2019-10-16)
李维刚,王肖,杨威,赵云涛[4](2019)在《数据清洗对热轧微合金钢性能预报模型的改进》一文中研究指出热轧生产过程实测数据具有噪音大、信噪比低等特点,运用合适的方法对异常数据进行清洗将有助于提高钢材力学性能预报模型的精度。基于带钢热连轧过程数据的分布特点,采用孤立森林算法对热轧过程异常数据进行清洗,提高了性能预报模型的预测精度。首先,基于收集到的大量热轧微合金钢生产过程数据,采用孤立森林算法计算原始数据集中每条数据记录的异常分值;接着结合异常分值排序与力学性能建模实验,确定异常数据记录的个数;最后,基于清洗后的数据集合,运用融合数据与机理的建模方法建立力学性能预报模型,并对抗拉强度和屈服强度进行预测。预测实践表明,抗拉强度和屈服强度预报的平均绝对百分误差分别为2.50%和3.42%,且分别有93.13%和86.30%的数据预测值和实测值绝对误差在±6%之内;采用孤立森林算法对热轧生产过程异常数据进行清洗,可显着提高热轧带钢力学性能预报模型的精度。(本文来源于《钢铁研究学报》期刊2019年10期)
宁广靖,袁诚[5](2019)在《互金数据“跳闸” 现金贷一夜入冬》一文中研究指出在一些业内人士看来,大数据行业没有完全干净的。这本就是一个生长在灰色地带边缘的产业。一只手在阳光下获取资本,描绘蓝图;另一只手藏于地下,不断在法律和道德边缘试探。这种潜藏在地下的数据买卖、清洗、交易支撑起了阳光下的虚假繁荣。但现在,是时候收手了。(本文来源于《新金融观察》期刊2019-10-14)
欧丽粤,毛红霞,赵春,熊浩宇,李荟[6](2019)在《基于豆瓣音乐网的数据采集与清洗》一文中研究指出笔者基于Python设计并实现了面向豆瓣网站分类浏览下艺术家标签的数据采集及清洗系统,完成了对该标签下全部歌手及其歌曲的数据爬取和清洗。通过爬取豆瓣音乐网分类浏览下的艺术家栏目,分析豆瓣音乐的详细信息,了解当下热门音乐以及音乐人,统计音乐人的歌曲总数、评价等详细信息,并对爬取到的数据进行数据清洗,具有一定的商业价值。(本文来源于《信息与电脑(理论版)》期刊2019年18期)
冯泽磊,吴美凤[7](2019)在《动态浮箱数据清洗方法在电力系统中的应用》一文中研究指出随着数字电厂的建设、大数据平台的逐步完善和智能设备的进一步推广,电力系统数据量急剧增长,为充分挖掘这些数据的价值,需要展开大量的数据分析工作。然而电力数据生产、采集、传输过程会出现数据中断、跳变、超值越限、数值不合理等现象,造成数据整合困难,给模型创建和业务分析决策带来负面影响。为此,提出一种新的浮箱清洗算法,采用动态浮箱与数据裁判测点相结合的数据清洗方案,实现了重要电力生产数据实时校验和个性化清洗。通过对数据进行实时清洗,准确给出机组运行状态信息,降低噪声对分析的影响,误判率低,准确性提高,时间延迟小,可以进行即时采集、即时清洗快速分析。(本文来源于《发电技术》期刊2019年S1期)
吕文斌,秦笠伟,洪敏慎[8](2019)在《浅析海洋数据成果质量问题与清洗方法》一文中研究指出随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据。针对这些不同源端数据存在的一些结构问题、格式问题、缺失问题、噪点问题等,进行了技术清洗和规范整合。(本文来源于《数字技术与应用》期刊2019年08期)
汤心韵,黎佳,李政廉,张淼[9](2019)在《基于异常数据清洗与混沌分析的变压器绝缘老化机理研究》一文中研究指出由于变压器绝缘老化过程非常复杂,对其还需从多种角度进行深入研究。文章通过研究变压器的油中溶解气体色谱数据,进一步探索变压器的绝缘老化特性。由于变压器油色谱数据易包含异常干扰数据,这将影响到后续对变压器绝缘老化机理的研究,因此采用一种基于迭代检验算法的异常数据清洗方法来有效识别并修正油色谱原始数据中的异常数据。然后将变压器绝缘老化过程分为10个阶段,从阶段1~阶段10,其老化程度不断加深。采用混沌分析方法提取出各绝缘老化阶段下,变压器油色谱数据的混沌特征量,深入研究了变压器油色谱数据的混沌特性与绝缘老化发展阶段的关系。(本文来源于《电气应用》期刊2019年08期)
张涛,张颖江,黄学松,张甜甜[10](2019)在《扁平化网络多出口流量数据高效清洗方法仿真》一文中研究指出探究一种多出口流量数据高效清洗方法,能够提高流量数据高效清洗的同一性,降低出错率,增强多出口流量高效清洗的清洗效果,具备一定的实用性。针对当前方法在清洗多出口流量数据时,由于多个交换机设计结构不同导致高效清洗的流量数据与原流量数据存在不同一的问题,提出一种基于Rough集理论的多出口流量数据高效清洗方法,通过建立差分自回归移动平均模型,运用该模型对在某时间点含有残缺值的差分自回归移动平均模型进行计算,得到叁种流量数据缺失值清洗模型,依据这叁种模型得到扁平化网络多出口流量数据高效清洗模型。将清洗流量数据四元组作为出入,计算流量数据清洗函数值,输出高效清洗多出口流量数据,实现多出口流量数据高效清洗。仿真证明,所提方法能够减小噪声点的干扰,提高查全率,降低出错率,提高高效清洗的同一性。(本文来源于《计算机仿真》期刊2019年08期)
数据清洗论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数据清洗论文参考文献
[1].陈钦柱,张涵,殷健,杨鸣,郑鹏程.海量实测过电压数据智能自清洗方法[J].高压电器.2019
[2].张荃,陈晖.基于最小哈希的重复数据清洗方法[J].通信技术.2019
[3].王握,李林,毛应萍.电警数据清洗方法及数据在信号控制中的应用[C].品质交通与协同共治——2019年中国城市交通规划年会论文集.2019
[4].李维刚,王肖,杨威,赵云涛.数据清洗对热轧微合金钢性能预报模型的改进[J].钢铁研究学报.2019
[5].宁广靖,袁诚.互金数据“跳闸”现金贷一夜入冬[N].新金融观察.2019
[6].欧丽粤,毛红霞,赵春,熊浩宇,李荟.基于豆瓣音乐网的数据采集与清洗[J].信息与电脑(理论版).2019
[7].冯泽磊,吴美凤.动态浮箱数据清洗方法在电力系统中的应用[J].发电技术.2019
[8].吕文斌,秦笠伟,洪敏慎.浅析海洋数据成果质量问题与清洗方法[J].数字技术与应用.2019
[9].汤心韵,黎佳,李政廉,张淼.基于异常数据清洗与混沌分析的变压器绝缘老化机理研究[J].电气应用.2019
[10].张涛,张颖江,黄学松,张甜甜.扁平化网络多出口流量数据高效清洗方法仿真[J].计算机仿真.2019