论文中去除异常值都是如何描述

论文中去除异常值都是如何描述

问:剔除“异常值”的一般原则是啥?
  1. 答:异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。标准化数值(Z-score)可用来帮助识别异常值。Z分数标准化后的数据服从正态分布。因此,应用Z分数可识别异常值。我们建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查,以决定它是否属于该数据集。肖维勒准则法(
    ):经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是当测量数据值n无穷大时失效。
  2. 答:狄克逊准则法(Dixon):对数据值中只存在一个异常值时,效果良好。担 当异常值不止一个且出现在同侧时,检验效果不好。尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。罗马诺夫斯基(t检验)准则法:计算较为复杂。格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果,但存在狄 克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。国际上常推荐采用格拉布斯准则法。这些方法,都有各自的特点,例如,拉依达准则不能检验样本量较小(显著性水平为0.1时,n必须大于10)的情况,格拉布斯准则则可以检验较少的数据。在国际上,常推荐格拉布斯准则和狄克逊准则。
  3. 答:在处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性,如果把这些数据值简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常值,然后将其剔除。判断和剔除异常值是数据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和探索。异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。所谓物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。
问:如何剔除数据中的异常值?
  1. 答:剔除数据中的异常值的方法:
    一、异常值检测
    异常值的检验有很多种方法,最常见的是图示法,也有使用分析方法进行探索。
    箱盒图:实验研究时经常使用,非常直观的展示出异常数据。
    散点图:研究X和Y的关系时,可直观展示查看是否有异常数据。
    描述分析:可通过最大最小值等各类指标大致判断数据是否有异常。
    其它:比如结合正态分布图,频数分析等判断是否有异常值。
    二、异常值判定
    上述已经说明异常值会带来严重的影响,扭曲数据结论等。那么首先需要设定异常值的标准,然后再对其进行处理。异常值的判定标准并不统一,更多是通过人为标准进行设定,SPSSAU提供以下几类判定规则:
    1、设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法。
    2、填补;如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数共四种填补方式。建议使用平均值填补方式。
问:如何剔除数据中的异常值?
  1. 答:剔除数据中的异常值的方法:
    箱盒图:实验研究时经常使用,非常直观的展示出异常数据。
    散点图:研究X和Y的关系时,可直观展示查看是否有异常数据。
    描述分析:可通过最大最小值等各类指标大致判断数据是否有异常。
    其它:比如结合正态分布图,频数分析等判断是否有异常值。
    定义:
    异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值 。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。
    在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
论文中去除异常值都是如何描述
下载Doc文档

猜你喜欢