王习涛:基于余弦相识度的聚类算法在统计调查对象分类中的应用研究论文

王习涛:基于余弦相识度的聚类算法在统计调查对象分类中的应用研究论文

摘要对统计数据的研究往往采用无监督学习的聚类算法,而基于欧式距离的常规聚类算法不太适合统计数据,文章将常用于文本相似度计算的余弦相似度算法与聚类算法相结合,形成基于图形相似度的模糊识别算法,采用统计月度数据进行实验测试,证明能够实现企业分类,达到了研究目标。

关键词:统计;聚类;余弦相似度;归一化

长期以来,统计人员使用中位数、众位数、奇异值、比重等统计方法来甄别调查对象报送的统计数据,以期发现其中的错误,进一步提高统计数据质量。本文尝试跳出价值量指标判断的藩篱,采用图形识别的方法对调查对象进行分类,以期发现企业填报的规律,筛选出偏离普遍模式的调查对象。

一、总体设想

现实生活中,我们在首次看到外貌相似的父子、兄弟时,第一印象往往觉得彼此很像,而伴随着相互熟悉之后我们会发现彼此的不同,并且不会再觉得相像,这是我们在识别对象时逐步从面到点的过程。人有各自的相貌,企业统计数据有没有普遍规律呢,能否利用这种规律发现调查对象中的特例,逐步发现我们关心的现象?

企业统计数据由生产过程产生,同一时期、同一地区的企业受基础设施、原材料价格、人员素质甚至风俗习惯、气候的影响,可能会有合理的生产效益关系,本文就从挖掘这种合理通用关系入手,实现对调查对象的分类研究。

假设同一地区,同一时间段,不同规模的企业生产效率是基本相同的,那么映射到二维图上则同序列指标的连线图形应高度相似,如图1 所示,B 企业是A 企业所有指标量值的1/2,则A 企业与B 企业的图形应完全相似。

图1 完全相似的两家企业

我们对上图对应数据计算余弦相似度,最终得到两列数据的相似度为1.0000000000000002,由此可以认为这两列数据组成的图形是完全相似的,我们的目的就是找到一个本地区所有企业都高度相似的图形,然后围绕与标准图形的相似度对调查单位分类,通过层层的筛选逐步找到我们关心的调查对象。

二、实验过程

为验证图形模式分类调查对象的可行性,我们采用工业月报B203 表(2- 7 月份)中26 各指标作为测试对象,对数据进行删除零值列预处理、归一化预处理、相似度计算、调查单位聚类,从而将调查单位按照相似度进行分类,并筛选出小众单位。

(一)数据预处理

首先我们观察不同月份的数据,可以发现有部分列数据为零的比重较高,这些列填零的调查对象有两万家左右。两家调查单位填零导致的相似度是没有意义的,这种情况下零较多的列计算出来的相似度是没有参考意义的,因此,首先我们删除填零较多(两万家左右)的列(共删除六列)。

2.期刊编辑有权按照各栏目标准对稿件进行取舍、修改、编辑,必要时与投稿者、投稿单位或稿件涉及部门核实内容的真实性、准确性。

此外,我们的统计指标包含不同量级的价值量指标,如图2所示,由于价值量指标原始数值变动幅度过大,造成图形中大多数指标趋近于零,从而导致仅有价值量值较大的指标才会影响相关度。

图2 原始数据图形

为消除不同量级指标对相关性的影响,我们对原始数据进行规范化处理,常用的规范化处理方法有最小最大规范化、零均值规范化、数量级归一化、极差归一化[(0,1)标准化]、Sigmoid 函数归一化、softmax 函数归一化等,我们采用极差归一化[(0,1)标准化]对原始数据去量纲处理。

极差归一化是最简单、最容易想到的数据归一化方法,它将变量的极差线性变化到(0,1)区间,假设属性x 的最大、最小值分别为max(x)和min(x),则每一个具体的值x 按如下公式规范化得y:

表1 原始数据及归一后效果

?

续表

?

(二)相关度计算

通过预处理后的数据被存放在22000 多行(每月单位数不完全一样),20 列的矩阵中,每一行代表一个调查对象,我们需要对任意两行计算其余弦相似度,从而判断两个调查对象报送的报表是否相似。

余弦相似度通常用在文档相似度判断上,是利用两个向量夹角的余弦值来衡量两个向量差异的大小,余弦值越接近1,就表明夹角越接近0°,也就是两个向量越相似,余弦相似度不考虑两个数据对象的量值。

图3 余弦相似度的几何解释

常用的数据分类分析方法有很多,如贝叶斯分类、支持向量机分类、神经网络分类等,而多数分类需要先确定分类条件或训练样本。聚类分析是根据“物以类聚”的道理对数据进行分类,分类前无须确定分类条件,是一种无监督的分类过程,非常适合统计调查对象分类。

4.计算n 行对应i 指标的平方(yi2),并累加。

其中是向量x 的长度是向量y 的长度

(2)在运算中,凡高于4次的项都并入o(x4)中,一般有:o(xn)+o(xm)=o(xn)(m≥n)。

假设向量x、y 的坐标分别为(x1,y1)、(x2,y2)。则:

推广到多维:则:因为测试数据中有20 各指标,所以每个企业是20 维,即n=20。

多年的实践表明,流域和区域“一湖两河”水行政执法联合巡查的持续开展,为水行政执法工作提供了合作平台,有效整合了流域与区域执法力量,丰富了执法手段和方式,发挥了流域与区域两方面的积极性,有利于及时、集中查处省际边界违法行为和复杂疑难案件,保障了边界地区与重点河湖和谐稳定,取得了流域与区域优势互补、事半功倍的效果;同时促进了各级队伍的日常巡查活动,各级水行政执法队伍密切配合,营造了声势,扩大了影响,树立了水行政执法队伍的威信。

针对未来全球油气开发趋势,赵喆认为,伴随着国际油价上升,油气行业的投资将稳定回升,前期因低油价而延期的重点产能建设项目的投资亦将逐渐恢复。国际石油公司未来的发展将主要聚焦于油气热点和优势领域,例如深水、天然气;在北美地区主要聚焦于非常规资源的持续稳定上产,例如致密油和页岩气。与此同时,国际石油公司将根据自身的核心战略和技术优势选择不同发展方向,资产并购和剥离将会更加频繁,以优化和完善资产组合。未来全球油气产量将呈现稳中向上的态势,在未有大规模储量发现的条件下,各项开发指标将保持合理的规模和比例。

算法:对任意两行数据(m 行、n 行)执行下面程序:

CompCosα(m,n,cosa)

1.当i 小于指标数时继续执行,否则跳到第5 步(i 从0 开始记录已计算指标数)

2.计算m 行和n 行对应i 指标数值的乘积,并累加。

3.计算m 行对应i 指标的平方(xi2),并累加。

观察两组患者的治疗效果,并分为分为显效、有效和无效三种情况。显效:患者的临床症状基本消失,胸痛、恶心等症状得到明显改善;有效:临床症状得以缓解,发作频率减少;无效:临床症状依然存在,患者病情未得到改善,或者胸痛、恶等症状更加严重;总有效率为显效和有效的总和。

在二维空间,根据向量点积公式,显然:

作为“南巡讲话”后云南首批下海创办实业的先行者,昆明诺仕达集团创始人任怀灿,以5万元、7个人起家,在1992年创办了诺仕达企业。从最初的零售业起步,如今诺仕达集团已是一个拥有40余家全资子公司,涉足翡翠珠宝、茶业、旅游、餐饮、娱乐、房地产、酒店、园林等8大产业的集团公司。

将上步产物与EDC·HCl及NHS发生缩合反应。按物质的量比1∶1.2∶1.2分别称取TPGS丁二酸单酯、EDC·HCl、NHS置于真空干燥箱中干燥4 h,TPGS丁二酸单酯(TPGS-COC2H4COOH)与EDC溶于pH值为5.0的吗啉乙磺酸缓冲液中,冰浴下磁力搅拌反应10 min后加入NHS,继续常温反应6 h,即得活化好的TPGS-NHS。

6.返回cosα。

(三)按照相似度进行聚类分析

如图3 所示,边x 与y 的余弦相似度是边x 与y 之间的夹角α 的余弦值。因此,如果余弦相似度为1,则x 与y 之间的夹角为0°,此时除了长度外x 与y 是相同的,如果余弦相似度为0,则x 与y 的夹角为90°,x 与y 完全不相似。

正确合理的理解数据分析需求是选择聚类方法的基础,在面部识别程序中,无论对象什么样貌、什么肤色,或者外部器官发生病变甚至缺失,只要对象是人,程序都应该做出人脸的判断,统计调查对象识别也一样,无论是大企业还是小企业,甚至企业部分数据缺失,程序都应该能判断出这是企业填报的数据,除非数据是非专业人员人为臆造的。在这种情况下,我们的调查单位应有一个通用的标准,而这个标准在多维数据空间中应该映射到一个具体的点(我们称之为中心点),而各个调查企业与这个点的距离(相似度)就是判断企业数据真伪的标准。

5.对2、3、4 步累加结果计算cosα。

注:

在现实中我们依然很难计算出中心点的具体位置,因为我们使用的是图形模式相似度距离,而不是绝度量距离。在这种情况下我们可以变通一下,首先我们设想一下调查对象在多维空间中的可能分布情况,第一种情况是多数单位聚集在一个簇中,少数指标游离于簇外。第二种是形成多个簇。不管是哪种情况,每个簇必然至少有一个离中心点距离最近的调查对象点,而以这个点为中心将囊括该簇最多的调查对象,这样寻找中心点的问题转化为寻找包含样本最多的问题,这也呼应了聚类分析的优势,因此我们使用K 中心点聚类算法,首先设定K 等于1,验证第一种设想。

注:

算法:发现包含等距离(相似度)调查对象最多的点

综上所述,循证护理干预可以明显降低胸椎骨折患者术后并发症的发生率,改善患者疼痛程度和不良心理状态,有利于疾病康复。

FindCore(m,datamatrix)

1.当i 小于调查对象数时继续执行,否则跳到5 执行。

4.判断与i 相似度低于设定值的调查对象数是否创新低,如果创新低则存储,否则i 加一跳到1 行继续执行。

3.计算i 与datamatrix(归一化后数据矩阵)每一行(j)的相似度,记录相似度低于设定值的行。

这时,餐厅的大门突然打开,整个屋里瞬间鸦雀无声。我回过头去看,一个年轻人走了进来,周围一片死寂,连一根针掉到地上都能听到。他脸上到处都是穿孔,多到数不过来,一头长发又黑又油腻。但让他看起来很有威胁的还不是这些,而是他扫视一切时的那种冷酷眼神。

2.当j 小于调查对象数时继续执行。

(3)提高落实工作的能力。进一步探索建立广西财产行为税分税种专业骨干团队,组建财产行为税人才库,为推进新时代财产行为税工作提供人才支撑。要有侧重地抽调人才库人员分税种组织研究政策、征管问题,承担相应的课题研究和重点难点项目攻坚等工作。对现行税制存在的突出问题,各基层地税机关要主动参与进来,抓住千载难逢的立法调研、政策规范、强化征管机遇,将真正肯干事、能干事、会干事的专业人才集中起来,上下联动、协同推进财产行为税重点工作,发挥分税种专业骨干团队集体攻关的作用,使专业人才在干事创业、攻坚克难中锻炼能力、提升素质、实现价值。

5.输出所有记录的中心点及对应的低相似度调查对象集合。

(四)实验结果

以联网直报平台查询导出默认顺序对数据进行扫描,以每个调查对象为中心点执行聚类,并记录每一次扩大聚类范围时的中心点及聚类单位数,表2 记录了2 月份B203 表每次扩大聚类范围时的中心点及相关度较低的调查对象。以最后第一个出现的最大聚类集为最优聚类集,表3 记录了对2 至7 月份数据进行聚类后的中心点及相似度低于0.9 的调查单位。

表2 2 月份B203 表调查单位聚类结果(空白区相关度大于0.9)

?

续表

?

表3 2-7 月B203 表数据分析结果

?

续表

?

三、结果分析

从表3 可看出,填写B203 表的调查单位聚集度较高,99.9%的调查单位聚集在不低于0.9 相似度的集群中,这说明我们选用的样本数据整体上是稳定的,没有受到个别离群单位影响,这符合第一种设想,也证明在初步分类中全省B203 表填报质量较高。

逐月观察可以发现,2 至7 月份与核心点相似度低于0.9的调查单位在逐步增多,相似度持续低于0.9 的企业中宇通客车、鸿富锦电子、双汇实业、天方药业和中烟工业始终保持与不同核心点的近似相似程度,企业数据与核心点相似度较低应该是企业特殊经营管理造成的(见图4)。

某些地域范围内的乡土建筑总能呈现出相近的类型特征,而这种特征就成为不同乡土建筑类型划分的重要依据。我们可以借鉴符号学及语言学的方法,以“适切项”为条件,尽量选取独特性较强的区域范围作为基本型(即本文所说的“原”),进而划分不同的源头。在选择中,大范围根据影响建筑最深的“地盘”(平面)、“侧样”、“正样”(剖面),并结合具体的用尺、营造细部特色——“细样”或“小样”,加以甄别 [8]。

图4 持续低于0.9 并保持稳定的企业

中石化中原油田、义马煤业、羚锐制药和省电力公司,从2月份开始与不同核心点相似度就小于0.9,并呈持续下降态势,说明企业填报数据与核心点的差距在逐步拉大(见图5)。

图5 相似度低于0.9 并逐步下降的企业

表3 中其他企业如郑煤、富泰华电子、焦煤和中石化河南勘探局从最初与核心点高于0.9 相似度逐步下滑至低于0.9 相似度,体现了企业填报模式由高度接近核心点逐步偏离核心点(见图6)。

图6 相似度高于0.9 下滑至低于0.9 的企业

而大多数调查单位始终保持高于0.9 的相似度,反映了大多数企业始终坚持稳定合理的填报模式,确保统计数据整体稳定。

本文系统梳理与总结中国改革开放以来的生态文明建设与实践,分析当前生态文明建设的难点与重点,针对存在的问题与不足,提出进一步推进生态文明建设的路径和制度创新。

四、改进方向

余弦相似度通常用在文档相似性度量领域,本文创新性地将余弦相似度用在企业填报数据的图形识别上,试图探索出一条抛开价值量含义,实现整体识别判断的新道路。通过实现,发现图形识别确实能够发现企业填报模式的区别,但灵敏度需要进一步改进。

(一)加强数据预处理

虽然前期我们对数据删除了零值较多的列,进行了极差归一化处理,但数据预处理工作仍有改进的空间。由于调查对象属性指标较多,需要进一步判断是否需要进行主成分分析,筛选更具代表性的属性,剔除干扰属性,提高识别准确率。此外极差归一化只是将价值量指标的值域直接映射到[0,1]范围内,但是指标分布密度没有本质改变,能否增加一个散列函数,将指标均匀分部到[0,1]之间,从而合理扩大均匀散布调查对象的值差距。对指标中的相同数字处理也是需要进一步考虑的问题,不等于零的重复价值量是有意义的,而相同的零值被判断为高度相似就应该设法筛除掉。

(二)有针对性改进相似度计算

加强数据理论学习,研究余弦夹角相似度计算内在规律,针对统计数据图形规律优化计算过程,提高相似度计算的准确性。

(三)提高存储运算能力

样本数据只有二十个属性、两万多条,相关度的计算量已经上亿次,单机计算时间达数小时,如何优化存储、提高运算能力是下一步必须考虑的问题。

患者不同程度的焦虑,产生应激,导致心血管系统发生变化,血浆中肾上腺素激素水平和NK淋巴细胞增多,影响治疗[5]。音乐疗法(MT)可以从非药物干预方面抑制患者的应激反应,减轻焦虑和神经系统的应激,有益治疗。

(四)分行业、分地区进一步分析数据

从初步分析判断看,样本数据整体质量较高,99.9%的数据保持较好的凝聚度。进一步深入分析数据,提高相似度判断灵敏性,分行业、分地区探索优化分类条件。

参考文献:

[1]Pang-Ning Tan,Michael Steinbach,Vipin Kumar. 数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2006.

[2]何跃.宏观经济数据挖掘理论与方法[M].成都:四川大学出版社,2013.

[3]王朝霞. 数据挖掘[M]. 北京:电子工业出版社,2018.

[4]Peter Harrington.机器学习实战[M].李锐,李鹏,曲亚东,等译.北京:人民邮电出版社,2013.

[5]熊赟,朱扬勇,陈志渊.大数据挖掘[M].上海:上海科学技术出版社,2016.

[6]Magnus Lie Hetland. python 基础教程(第3 版)[M].袁国忠译.北京:人民邮电出版社,2018.

10.13999/j.cnki.scyj.2019.05.005

(作者单位:河南省统计局数管中心)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

王习涛:基于余弦相识度的聚类算法在统计调查对象分类中的应用研究论文
下载Doc文档

猜你喜欢