摘要:过滤式特征选择是一种在基因表达数据上广泛使用且简单有效的方法。针对其特征子集冗余性问题,使用皮尔逊相关系数,提出一种带冗余去除的特征选择算法。研究了在不同相关强度下特征子集冗余去除及分类准确度效果。实验选用三个不同的基因表达数据集,使用支持向量机、k近邻、随机森林作为分类器分别进行了测试。实验结果表明,带冗余去除的过滤式特征选择方法在不同分类器上均能获得良好的分类性能,另外,此方法在降低特征子集维度的同时能够提高分类准确度。
关键词:基因表达数据;特征选择;过滤式方法;皮尔逊相关系数;冗余去除
一、引言
随着科学技术的快速发展,我们能够获得越来越多的微阵列数据。依据这些数据进行正常组织与癌症组织的诊断,或者不同癌症组织的判别分析已经在生物学领域得到了广泛的应用。基因表达数据具有小样本、高维度、分布不平衡的特点,因此,如何有效地处理、利用与分析这些数据,成为我们面临的一个关键问题,而且大多数基因并不能为疾病诊断提供有用的信息,这些信息只包含在少数的基因之中。例如,Golub等人在对急性淋巴细胞白血病(ALL)和急性髓性白血病(AML)两类白血病进行研究时,发现50个特征基因能够包含足够的信息,并能对所有信息进行分类[1]。Alon等人对结肠癌数据集进行研究时,选择了20个最具有统计学显著差异的特征基因,并取得了良好的分类效果[2]。因此,对基因表达数据进行特征选择具有很多优点:一方面可以降低数据维度减少计算量,另一方面可以减少噪声的影响,提高分类准确度。
特征选择已经成为生物信息学领域数据预处理步骤不可或缺的一部分,特征选择技术可以宽泛地分为过滤式(Filter)方法、封装式(Wrapper)方法、嵌入式(Embedded)方法三类[3]。过滤式方法只通过数据的内在属性来估计特征的差异性,而不考虑模型的学习算法或分类器对特征的影响。过滤式方法的常用方式是根据特征的差异性评分进行排序,并选取评分较高的一部分特征作为特征子集输入到分类算法上。一些常用的过滤式特征选择方法如信息熵、t检验、χ2检验与秩和检验都显示了良好的性能[4-7]。封装式方法通过评估分类器的分类性能在候选子集空间内选取最佳的特征子集,对于特定的学习算法,封装式方法可能会取得比过滤法更好的效果,但会增加计算成本。嵌入式方法将特征选择方法嵌入到过滤器中,通常能够在计算成本和分类性能之间达到一个很好的平衡。过滤式方法计算简单快速,独立于分类算法,因此对于高维度数据集能够极大地减少运算成本,并且适用于不同的分类算法。由于技术成本问题,基因表达数据集的样本数量往往在100左右,但基因的数量即特征的数量高达成千上万个,原始数据集经过过滤式特征选择后获得的特征子集仍然具有较高的维度。过滤式特征选择方法没有考虑不同特征之间的相关性,因此,如果一个特征被选入特征子集,那么与此特征高度相关的一些特征也可能被选入特征子集,这些高度相关特征提供的分类信息往往是相似的,这会造成特征子集的冗余。这种冗余不仅不能为分类模型提供有用的信息,而且会成为一种噪声影响分类模型的准确度。对于这一问题,本文提出一种启发式的冗余去除算法。
此算法首先使用过滤式特征选择方法对原始基因表达数据集进行特征选择,获得特征子集,然后在特征子集的基础上开展冗余去除的工作。在特征子集冗余去除之前,要确定不同变量之间的相关性度量,本文选取了皮尔逊相关系数。由于不同强度相关系数会对冗余去除与分类效果形成不同影响,因此具体分析了这一因素对整体模型的影响。为了验证算法的有效性,获得科学合理的实验结果,本文在白血病、结肠癌和前列腺疾病三个基因表达数据集上,使用支持向量机(SVM)、k近邻、随机森林三种不同的分类器分别进行了测试[8-10]。
二、过滤式特征选择的统计方法
对于二分类问题,一种常用的过滤式特征选择方法是使用统计学中的假设检验。假设检验可以分为参数检验和非参数检验,参数检验首先需要确定总体的分布类型,然后针对参数进行假设检验,常用的方法有t检验、F检验和χ2检验,非参数检验不需要假定总体的分布类型,直接对总体分布的某种假设(例如对称性、分位数大小)做统计检验,常用的方法有秩统计量、符号秩统计量[11]。给定一个基因表达数据集G(包含m+n个样本,N个基因),其中X={x1,x2,…,xm}为正类样本,Y={xm+1,xm+2,…,xm+n}为负类样本,特征基因集合为G={g1,g2,…,gN},gij为第i个样本第j个特征的基因表达水平数值。设定显著性水平α,使用假设检验方法对数据集中每一个基因判断在此显著水平下是否通过假设检验,如果拒绝原假设,说明此基因在不同类别的总体分布存在差异,可以为分类模型提供有效的信息。将这些基因加入特征子集,作为分类模型的输入变量。本文在实验验证过程中分别使用了参数检验中的t检验方法和非参数检验中的秩和检验方法。
(一)t检验
t检验是适用于检验正态分布样本平均值差异的一种方法,它是用t分布理论来推断差异发生的概率,从而判定两个变量平均数的差异是否显著。对于基因表达数据特征选择问题,t检验首先需要建立原假设H0∶μ(gXj)=u(gYj),即假定两类样本在第j个特征gj上的总体平均数之间没有差异。为了评价两组样本平均数之间的差异程度,计算t统计量的值:
(1)
式中为正负类样本在第j个特征gj上的均值,m、n分别为正负类样本的数目,为正负类样本平方和。根据设定的显著性水平α与t统计量值可以判断正负类样本平均值是否存在显著性差异。
(二)秩和检验
Wilcoxon秩和检验是用来检验两个独立样本是否来自相同或相等的总体。Wilcoxon秩和检验基于样本数据的秩和,先将两样本看成单一样本(混合样本),然后由样本值从小到大排序统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,因此获得的秩和统计量不会过大或过小,设符号函数:
i=1,2,…,m;
k=m+1,m+2,…,m+n
(2)
则Wilcoxon秩和统计量定义为:
(3)
但是过滤式特征选择方法存在一个较大的缺点,即在特征选择过程中没有考虑不同特征之间的相关性。例如,如果基因gi拒绝了原假设,被选入特征子集,那么与gi高度相关的一些基因也有可能被选入到特征子集中。这样获得的特征子集具有大量的冗余,当构建分类器时,这些冗余会成为噪声影响特征子集的分类性能,因此,如何去除特征子集的冗余是需要解决的一个重要问题。
三、特征子集的冗余去除模型
从文化角度,如马珺《“中国风”流行歌曲的文化研究》一文,其对“中国风”歌曲的分析不可谓不到位:从“中国风”歌曲对流行乐坛“西风渐盛”的回击的积极之处和歌曲中国传统文化因素在商业动机之下剪接拼贴沦为别致“装饰”而失去完整深邃内涵的遗憾之处切入,进行“中国风”的文化方面的探索。
(一) 皮尔逊相关系数
假设特征子集已经按特征的重要性进行排序,代表最重要的特征基因。设置一个相关系数阈值r,计算特征基因与特征基因之间的相关系数绝对值ρ1i。如果ρ1i≥r,表示两个特征基因之间具有较强的相关性,特征基因是特征基因的冗余,将特征从特征子集G1中去除,更新特征子集G1;如果ρ1i<r,表示两个特征基因之间不存在较强的相关性,将特征保留在特征子集G1中。这样可以去除特征的全部冗余并保留和其相关性不强的全部特征基因,得到更新的特征子集其中是与特征相关性不强的特征。将特征从更新的特征子集G1中去除并保存在集合G2中,如此得到与对G1重复上述步骤,直至G1成为空集结束,最终得到冗余去除后的特征子集具体流程图如图1所示。
(4)
基因表达数据集样本为X={x1,x2,…,xm+n},其中为特征基因gi与gj的样本均值,为样本标准差。ρij>0表示两个特征基因之间存在正相关,ρij<0表示两个特征基因之间存在负相关,ρij=0表示两个变量之间不存在线性相关。ρij越大,变量间的相关性越强。
假设基因表达数据集G的特征集合为G={g1,g2,…,gN},在特征选择步骤使用过滤式方法得到特征子集使用过滤式特征选择方法的一个优点,是对每一个特征可以得到一个重要性评分,例如在对特征基因gi使用t检验或秩和检验时,我们可以计算假设检验的p值,p值越小说明两类样本的统计学差异越显著,特征基因也越重要。根据特征基因的重要程度对特征子集进行排序,重要的特征基因排名靠前,不重要的特征基因排名靠后,这对于特征子集冗余去除并保留最重要的特征具有极大的帮助。
(二)冗余去除模型
输入:基因表达数据集G,假设检验p值的阈值P。
在统计学中,皮尔逊相关系数用于度量两个变量之间的线性相关程度,其值介于-1与1之间[12]。对于特征基因gi与gj,样本相关系数ρij可以通过以下公式计算:
图1冗余去除流程图
四、带冗余去除的特征基因选择算法
本文基于基因表达数据,首先使用统计学中假设检验的过滤式特征选择方法对数据集进行特征选择,然后对特征选择后的特征子集进行冗余去除。因此,带冗余去除的特征基因选择算法分为两个步骤:特征选择与冗余去除。
1.设G2为空集;
3.2.4 师生转换角色,增加课堂互动 教学是由师生共同完成教学任务的双边活动。课前学生通过学案落实预习任务、熟悉案例,课上教师创设一个开放、宽松的环境,引导学生就案例中的关键问题、教学重点、难点问题展开讨论,教师从知识传授者转变为启发者、引导者,学生由被动接受者转变为主动参与者。否则,不管教师讲得多形象、理论多充实、内容多有价值,学生没有听进去、没有真正参与到教学活动中,是不会有好的教学效果的。
(一)特征选择算法
我们希望去除特征子集中的冗余特征,使特征子集中不同的特征能够提供不同的分类信息,从统计角度看,这要求不同特征之间不能有太高的相关性,即对于某一特征来说,它和特征子集中其他的特征之间应该都不具有较强的相关性,因此,本文使用两两配对的方式依据皮尔逊相关系数去除特征子集中的冗余特征。
输出:特征子集G1。
1.设置G1为空集;
2.对特征基因gi,i=1,2,…,N进行假设检验,计算假设检验p值pi;
此次改造耗时40天,改造后烟化炉余热锅炉运行平稳,第一、第二对流管束顶部烧损的问题得到解决,改造取得了良好效果,满足工艺生产的需求。具体运行效果如下:
闽东乃福建开发最迟的地方,但因为“银事”,其频繁出现在明代历朝官修的编年体史书 《明实录》之中,地偏一隅的闽东,却因“银事”而数度面圣,可见影响。现胪列部分如下:
3.如果pi<P,说明特征基因gi在两类样本中具有显著性差异,将gi加入特征子集G1中,否则特征子集G1保持不变;
4.输出特征子集G1。
(二)冗余去除算法
对收集到的用户数据进行分析、集成、深度挖掘,然后结合馆藏资源进行进一步的挖掘和整合,例如,可以详细分析和深度挖掘用户不同时间段的同一个性化阅读需求,获取阅读动机、阅读心理、阅读偏好、阅读方式的演变过程,利用智能预测系统推测用户未来可能的个性化阅读需求及需求变化趋势。
输出:冗余去除后的特征子集G2。
随后,她坐在岭上的一块大青石上,晒了一会阳光,不知为什么,她走走停停,走得越来越慢了。说穿了做贼心虚,心底里还是有点儿提心吊胆的,她努力使自己镇定下来,以一种淡定的心态,若无其事地去见她的风影和尚,就像什么事也没有发生过一样。这回,她一定要让他吹一回竹笛子,她要好好的当一次听众,听一听那久违了的笛声。她深信,这次的笛声一定比以往任何时候都要悠扬,悦耳动听。她笑了起来,笑得比一株山花还要好看,那就继续笑下去,跟山花秀上一回,俊死那满山的野花。此时要是带镜子,她一定会照上千回百回。她的身子顷刻之间就化作了一株弱柳,如果没有风扶,肯定会倒了下去。
越秀瞧在眼里,急在心里,恨不能自己也下水,把他们两人分隔开来,可她知道自己不能,那么冷的水,她站都站不住。
2.计算特征子集G1的长度l;
输入:基因表达数据集G,特征子集G1,皮尔逊相关系数阈值r。
3.计算特征子集G1中第一个特征与其他特征的相关系数绝对值ρ1i,2≤i≤l;
4.如果ρ1i≥r则将第i个特征从特征子集G1中去除,否则特征子集G1保持不变;
5.去除特征子集G1中的第一个特征并保存在G2中,更新G1;
6.如果G1为空集,则输出G2,否则转入步骤3。
心血管神经症是一种功能性疾病,常无器质性心脏病变,根据其特点及临床表现,本病可归属于中医学“心悸”、“怔忡”等病证范围,其病机关键是阴虚生内热,虚热扰动心神,致心神不宁而发病。笔者在西医常规稳定心率、镇静、调节神经细胞功能等治疗措施的基础上,自拟六子养阴煎治疗,方中女贞子、枸杞子、五味子、沙苑子等滋阴益肾,栀子清热泻火、柏子仁养心安神,均为主药;配伍旱莲草、生地黄、山茱萸、牡丹皮等增强滋阴清热降火之力,远志、牡蛎亦可宁心、镇惊、安神,甘草清热,兼以调和诸药。全方合用,共同发挥补肾滋阴,降火安神的功效,阴虚得补,虚火得清。综上,采用六子养阴煎治疗心血管神经症效果满意,值得推广。
五、实验及结果
本文使用白血病、结肠癌和前列腺疾病三个基因表达数据集,数据集具体信息如表1所示。Colon数据集为结肠癌数据集,正类为结肠癌样本,负类为正常组织样本。Leukemia数据集为白血病数据集,正类为急性淋巴细胞白血病(ALL)样本,负类为急性髓性白血病(AML)样本。Prostate数据集为前列腺疾病数据集,正类为前列腺样本,负类为正常组织样本。“来源”中的序号为文后参考文献序号。为了评价特征子集的分类预测性能,使用支持向量机(SVM)、k近邻、随机森林三种分类器分别进行测试。
著名的教育学家陶行知先生说:“单纯的劳动,不算做,算蛮干,单纯的想,只是空想,只有将操作与思维结合起来,才能达到思维的目的”。因此,教师在教学中,应根据学生的心理特征和思维特点,让全体学生动眼看、动手做,理解和掌握抽象的物理规律和概念,不断发展学生的抽象思维能力。
表1基因表达数据集
数据集特征数目样本数目正类负类来源Colon2 000624022[2]Leukemia7 129724725[1]Prostate12 6001025250[13]
在实验过程中,使用统计学假设检验方法进行特征选择时假设检验阈值P设定为0.05。一般认为皮尔逊相关系数在[0,0.4]之间变量为弱相关,[0.4,0.7]之间为中等相关,[0.7,1.0]之间为强相关,因此本文将皮尔逊相关系数阈值r设定在[0.4,0.9]。支持向量机的核函数选用线性核,考虑样本数量k近邻中k值在Colon与Leukemia数据集中设置为3,在Prostate数据集中设置为5,随机森林中树的数量设定为100。为预防过拟合现象和人为因素的影响,对数据集进行五折交叉验证实验。
模型算法使用R软件 x64 3.3.3版本的脚本语言编写,并在Windows 7上运行。
(一)特征选择结果
在进行特征子集的冗余性分析之前,需要对基因表达数据集进行特征选择,图2显示了不同数据集使用t检验与秩和检验的特征选择结果,结果均为交叉验证实验结果的均值。
Colon数据集原始特征数目为2 000,经过t检验特征数目降低到415.6,经过秩和检验特征数目降低到325.6;Leukemia数据集原始特征数目为7 129,经过t检验特征数目降低到1 815.8,经过秩和检验特征数目降低到1 855.4;Prostate数据集原始特征数目为12 600,经过t检验特征数目降低到4 448,经过秩和检验特征数目降低到3 863。可以看出,t检验与秩和检验在特征选择的降维效果上差别不大,经过特征选择后特征集合的数目大为减少,但特征子集的数目还是比较庞大。在特征子集中存在大量彼此相关的特征,因此需要对特征子集的冗余性作进一步研究。
图2t检验与秩和检验特征选择结果对比
(二)冗余去除效果
图3中横坐标t与w分别代表t检验与秩和检验,数字代表设定的相关系数阈值r。为方便比较,r取值从大到小排列。
留学生的母语及母语文化是自幼习得的,在学习汉语时,母语及其文化会与汉语及中国文化发生冲突,产生干扰和影响,即负迁移。比如第3题“你说的是小杨吧。他呀,说得比唱得还好听。这句话的意思是什么”,有位德国学生选了“A.小杨的声音很好听”,因为在德国,如果某人唱歌不好,人们就安慰他说“你的声音很好听”。又比如第8题“老王干活很勤快,你表扬他,你怎么说”,有位日本学生反映道,在日语里,很少有用“老黄牛”比喻人的,所以她根本没想到应该选“C.老王干活像头老黄牛一样”。这都是学生母语文化对汉语语用习得的负迁移。
图3冗余去除特征数目对比
由图3可知,不同数据集在同一阈值下会得到不同的冗余去除效果。整体来看,经过t检验与经过秩和检验获得的特征子集在冗余去除上具有相同的表现趋势。Colon数据集与Prostate数据集在r=0.8时会去除大量冗余得到一个较小的特征子集,说明在这两个数据集的特征子集中多数特征之间具有强相关性,稍有不同的是Prostate数据集表现了更强的相关性,一大部分特征之间的相关性大于0.9。Leukemia 数据集在r=0.6时去除大量冗余得到一个较小的特征子集,并且在r=0.9与r=0.8时冗余去除效果不明显,说明Leukemia数据集的特征子集中多数特征之间没有强相关性,但具有中度相关。
(三)分类准确度
为了检验特征选择后的特征子集及冗余去除后的特征集合的分类预测性能,使用支持向量机(SVM)、k近邻(KNN)、随机森林(RF)三种分类器分别进行了测试,分类准确度结果如表2~4所示,加黑部分为同一分类器下达到的最高准确度。可以看出对于不同的基因表达数据集,分类的最高准确度大多数情况下是在去除冗余后的特征子集中获得的。这说明经过过滤式特征选择后的特征子集中存在大量冗余,这些冗余不仅会增加特征子集的维度,还会降低分类器的准确度。另外在相关性阈值r取值为0.4或0.5时,分类准确度相对于最高值虽然会有所降低,但也可以达到一个较好的水平,而且此时冗余去除后的特征子集的维度会降低到一个极小的水平。这表明,在成千上万个基因中只有极少数关键性的基因对疾病分类起到决定性作用。
表2Colon数据集分类准确度
特征选择方法分类器特征子集准确度r0.40.50.60.70.80.9t检验SVM85.580.680.687.180.683.885.5KNN83.575.880.675.875.877.483.5RF83.575.870.975.874.283.583.5秩和检验SVM83.585.583.583.580.683.583.5KNN83.585.580.683.583.577.483.5RF80.683.583.583.585.585.583.5
表3Leukemia数据集分类准确度
特征选择方法分类器特征子集准确度r0.40.50.60.70.80.9t检验SVM84.790.391.793.191.791.788.9KNN91.788.991.794.493.194.494.4RF88.997.298.698.695.895.888.9秩和检验SVM90.390.391.791.791.791.790.3KNN94.494.493.187.590.395.895.8RF97.297.298.695.897.294.497.2
表4Prostate数据集分类准确度
特征选择方法分类器特征子集准确度r0.40.50.60.70.80.9t检验SVM92.290.288.289.291.292.290.2KNN74.584.385.384.386.384.379.4RF89.290.288.291.291.291.291.2秩和检验SVM91.292.291.289.289.288.291.2KNN79.487.285.384.389.275.576.4RF92.291.291.293.192.292.291.2
六、结语
特征选择是基因表达数据预处理过程中关键性的步骤。本文对过滤式特征选择后特征子集的冗余做了进一步研究,将特征子集冗余去除模型加入到特征选择中,构建带冗余去除的过滤式特征选择模型。此模型在解决冗余性问题的同时降低了特征子集的维度,有助于减少后续分类模型的计算量,节约了计算成本和存储成本。在对实际数据集进行验证时,本文模型能够达到一个较为理想的实验效果,验证了特征子集冗余去除的必要性,并且在实验过程中发现,分类器在极少数特征下就可以达到一个较好的分类准确度,这也符合生物学的基本原理,疾病的产生只和少数基因有关。因此,特征子集冗余去除工作对于基因表达数据集具有重要的意义。另外,如何更加精准地定位这些极少数的基因,并在此基础上获得更加准确的疾病诊断,是下一步研究的方向。
参考文献:
[1] Golub T R,Slonim D K,Tamayo P,et al.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,286(42).
[2] Alon U,Barkai N,Notterman D A,et al.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(12).
[3] Boln-Canedo V,Snchez-Maroo N,Alonso-Betanzos A.Feature Selection for High-Dimensional Data[M].New York:Springer International Publishing,2015.
[4] Zheng K,Wang X.Feature Selection Method with Joint Maximal Information Entropy Between Features and Class[J].Pattern Recognition,2018,77(5).
[5] 崔书华,胡斌,胡涛.阿尔茨海默病在脑皮层厚度中的集成分类方法研究[J].小型微型计算机系统,2017,38(12).
[6] Liu H,Setiono R.Chi2:Feature Selection and Discretization of Numeric Attributes[C].International Conference on TOOLS with Artificial Intelligence.IEEE Computer Society,1995.
[7] 刘成友,刘康,余晶,等.利用基因芯片技术筛选差异表达基因的方法研究[J].数学的实践与认识,2017,47(6).
[8] 谭云,于彬,王琦然,等.基于 SVM的肿瘤特征基因提取与基因表达数据分析[J].重庆理工大学学报,2016,30(6).
[9] Bouazza S H,Hamdi N,Zeroual A,et al.Gene-expression-based Cancer Classification Through Feature Selection with KNN and SVM Classifiers[C].Intelligent Systems and Computer Vision,IEEE,2015.
[10]Ram M,Najafi A,Shakeri M T.Classification and Biomarker Genes Selection for Cancer Gene Expression Data Using Random Forest[J].Iranian Journal of Pathology,2017,12(4).
[11]吴喜之,王兆军.非参数统计方法[M].北京:高等教育出版社,1996.
[12]邓小林.基于朴素贝叶斯和权限相关的Android恶意应用检测方法[D].重庆:重庆邮电大学,2016.
[13]Veer L J V',Dai H,Vijver M J V D,et al.Gene Expression Profiling Predicts Clinical Outcome of Breast Cancer[J].Nature,2002,415(5).
RedundantStudyonFeatureSubsetofGeneExpressionData
DU Chong,ZHOU Chang-yin
(School of Mathematics and Systems Science,Shandong University of Science and Technology,Qingdao 266590,China)
Abstract:Filter feature selection is a widely used method on gene expression data which is also simple and effective.Aiming at the redundancy of its feature subset,a feature selection algorithm with redundancy elimination is proposed by using Pearson correlation coefficient.Through the algorithm,the redundancy removal and classification accuracy of feature subset under different correlation intensities are studied.Three different gene expression data sets are selected and tested using support vector machine,nearest neighbor and random forest as classifier.The experimental results show that the filtering feature selection method with redundant removal can achieve good classification performance on different classifiers.In addition,using this method can improve the classification accuracy while reducing the feature subset dimension.
Keywords:gene expression data; feature selection; filtering method; Pearson correlation coefficient; redundancy removal
中图分类号:C812
文献标志码:A
文章编号:1007-3116(2019)05-0010-06
收稿日期:2018-06-03;修复日期:2018-07-17
基金项目:国家统计科学重点研究项目《网络交易价格的大数据统计与数据挖掘方法研究》(2014LZ41)
作者简介:
杜 冲,男,安徽宿州人,硕士生,研究方向:数据挖掘;
周长银,男,山东泰安人,副教授,硕士生导师,研究方向:随机最优化方法及应用,贝叶斯预测。
近来,任何从事工业通信的人都会面对时间敏感型网络(TSN)的话题。TSN必将到来,只是时间和方式的问题。然而,即使到今天,人们对它在工业通信领域的优势并不是很清楚。
(责任编辑:张治国)
标签:特征论文; 子集论文; 冗余论文; 基因论文; 数据论文; 社会科学总论论文; 统计学论文; 统计方法论文; 统计资料的分析和整理论文; 《统计与信息论坛》2019年第5期论文; 国家统计科学重点研究项目《网络交易价格的大数据统计与数据挖掘方法研究》(2014LZ41)论文; 山东科技大学数学与系统科学学院论文;