王习涛:基于余弦相识度的聚类算法在统计调查对象分类中的应用研究论文

摘要对统计数据的研究往往采用无监督学习的聚类算法，而基于欧式距离的常规聚类算法不太适合统计数据，文章将常用于文本相似度计算的余弦相似度算法与聚类算法相结合，形成基于图形相似度的模糊识别算法，采用统计月度数据进行实验测试，证明能够实现企业分类，达到了研究目标。

关键词：统计；聚类；余弦相似度；归一化

长期以来，统计人员使用中位数、众位数、奇异值、比重等统计方法来甄别调查对象报送的统计数据，以期发现其中的错误，进一步提高统计数据质量。本文尝试跳出价值量指标判断的藩篱，采用图形识别的方法对调查对象进行分类，以期发现企业填报的规律，筛选出偏离普遍模式的调查对象。

一、总体设想

现实生活中，我们在首次看到外貌相似的父子、兄弟时，第一印象往往觉得彼此很像，而伴随着相互熟悉之后我们会发现彼此的不同，并且不会再觉得相像，这是我们在识别对象时逐步从面到点的过程。人有各自的相貌，企业统计数据有没有普遍规律呢，能否利用这种规律发现调查对象中的特例，逐步发现我们关心的现象？

企业统计数据由生产过程产生，同一时期、同一地区的企业受基础设施、原材料价格、人员素质甚至风俗习惯、气候的影响，可能会有合理的生产效益关系，本文就从挖掘这种合理通用关系入手，实现对调查对象的分类研究。

假设同一地区，同一时间段，不同规模的企业生产效率是基本相同的，那么映射到二维图上则同序列指标的连线图形应高度相似，如图1 所示，B 企业是A 企业所有指标量值的1/2，则A 企业与B 企业的图形应完全相似。

图1 完全相似的两家企业

我们对上图对应数据计算余弦相似度，最终得到两列数据的相似度为1.0000000000000002，由此可以认为这两列数据组成的图形是完全相似的，我们的目的就是找到一个本地区所有企业都高度相似的图形，然后围绕与标准图形的相似度对调查单位分类，通过层层的筛选逐步找到我们关心的调查对象。

二、实验过程

为验证图形模式分类调查对象的可行性，我们采用工业月报B203 表（2- 7 月份）中26 各指标作为测试对象，对数据进行删除零值列预处理、归一化预处理、相似度计算、调查单位聚类，从而将调查单位按照相似度进行分类，并筛选出小众单位。

（一）数据预处理

首先我们观察不同月份的数据，可以发现有部分列数据为零的比重较高，这些列填零的调查对象有两万家左右。两家调查单位填零导致的相似度是没有意义的，这种情况下零较多的列计算出来的相似度是没有参考意义的，因此，首先我们删除填零较多（两万家左右）的列（共删除六列）。

2.期刊编辑有权按照各栏目标准对稿件进行取舍、修改、编辑，必要时与投稿者、投稿单位或稿件涉及部门核实内容的真实性、准确性。

此外，我们的统计指标包含不同量级的价值量指标，如图2所示，由于价值量指标原始数值变动幅度过大，造成图形中大多数指标趋近于零，从而导致仅有价值量值较大的指标才会影响相关度。

图2 原始数据图形

为消除不同量级指标对相关性的影响，我们对原始数据进行规范化处理，常用的规范化处理方法有最小最大规范化、零均值规范化、数量级归一化、极差归一化［（0,1）标准化］、Sigmoid 函数归一化、softmax 函数归一化等，我们采用极差归一化［（0，1）标准化］对原始数据去量纲处理。

极差归一化是最简单、最容易想到的数据归一化方法，它将变量的极差线性变化到（0,1）区间，假设属性x 的最大、最小值分别为max（x）和min（x），则每一个具体的值x 按如下公式规范化得y：

表1 原始数据及归一后效果

续表

（二）相关度计算

通过预处理后的数据被存放在22000 多行（每月单位数不完全一样），20 列的矩阵中，每一行代表一个调查对象，我们需要对任意两行计算其余弦相似度，从而判断两个调查对象报送的报表是否相似。

余弦相似度通常用在文档相似度判断上，是利用两个向量夹角的余弦值来衡量两个向量差异的大小，余弦值越接近1，就表明夹角越接近0°，也就是两个向量越相似，余弦相似度不考虑两个数据对象的量值。

图3 余弦相似度的几何解释

常用的数据分类分析方法有很多，如贝叶斯分类、支持向量机分类、神经网络分类等，而多数分类需要先确定分类条件或训练样本。聚类分析是根据“物以类聚”的道理对数据进行分类，分类前无须确定分类条件，是一种无监督的分类过程，非常适合统计调查对象分类。

4.计算n 行对应i 指标的平方（yi2），并累加。

其中是向量x 的长度是向量y 的长度

(2)在运算中，凡高于4次的项都并入o(x4)中，一般有:o(xn)+o(xm)=o(xn)(m≥n)。

假设向量x、y 的坐标分别为（x1,y1）、（x2,y2）。则：

推广到多维：则：因为测试数据中有20 各指标，所以每个企业是20 维，即n=20。

多年的实践表明，流域和区域“一湖两河”水行政执法联合巡查的持续开展，为水行政执法工作提供了合作平台，有效整合了流域与区域执法力量，丰富了执法手段和方式，发挥了流域与区域两方面的积极性，有利于及时、集中查处省际边界违法行为和复杂疑难案件，保障了边界地区与重点河湖和谐稳定，取得了流域与区域优势互补、事半功倍的效果；同时促进了各级队伍的日常巡查活动，各级水行政执法队伍密切配合，营造了声势，扩大了影响，树立了水行政执法队伍的威信。

针对未来全球油气开发趋势，赵喆认为，伴随着国际油价上升，油气行业的投资将稳定回升，前期因低油价而延期的重点产能建设项目的投资亦将逐渐恢复。国际石油公司未来的发展将主要聚焦于油气热点和优势领域，例如深水、天然气；在北美地区主要聚焦于非常规资源的持续稳定上产，例如致密油和页岩气。与此同时，国际石油公司将根据自身的核心战略和技术优势选择不同发展方向，资产并购和剥离将会更加频繁，以优化和完善资产组合。未来全球油气产量将呈现稳中向上的态势，在未有大规模储量发现的条件下，各项开发指标将保持合理的规模和比例。

算法：对任意两行数据（m 行、n 行）执行下面程序：

CompCosα（m，n，cosa）

1.当i 小于指标数时继续执行，否则跳到第5 步（i 从0 开始记录已计算指标数）

2.计算m 行和n 行对应i 指标数值的乘积，并累加。

3.计算m 行对应i 指标的平方（xi2），并累加。

观察两组患者的治疗效果,并分为分为显效、有效和无效三种情况。显效:患者的临床症状基本消失,胸痛、恶心等症状得到明显改善;有效:临床症状得以缓解,发作频率减少;无效:临床症状依然存在,患者病情未得到改善,或者胸痛、恶等症状更加严重;总有效率为显效和有效的总和。

在二维空间，根据向量点积公式，显然：

作为“南巡讲话”后云南首批下海创办实业的先行者，昆明诺仕达集团创始人任怀灿，以5万元、7个人起家，在1992年创办了诺仕达企业。从最初的零售业起步，如今诺仕达集团已是一个拥有40余家全资子公司，涉足翡翠珠宝、茶业、旅游、餐饮、娱乐、房地产、酒店、园林等8大产业的集团公司。

将上步产物与EDC·HCl及NHS发生缩合反应。按物质的量比1∶1.2∶1.2分别称取TPGS丁二酸单酯、EDC·HCl、NHS置于真空干燥箱中干燥4 h，TPGS丁二酸单酯（TPGS-COC2H4COOH）与EDC溶于pH值为5.0的吗啉乙磺酸缓冲液中，冰浴下磁力搅拌反应10 min后加入NHS，继续常温反应6 h，即得活化好的TPGS-NHS。

6.返回cosα。

（三）按照相似度进行聚类分析

如图3 所示，边x 与y 的余弦相似度是边x 与y 之间的夹角α 的余弦值。因此，如果余弦相似度为1，则x 与y 之间的夹角为0°，此时除了长度外x 与y 是相同的，如果余弦相似度为0，则x 与y 的夹角为90°，x 与y 完全不相似。

正确合理的理解数据分析需求是选择聚类方法的基础，在面部识别程序中，无论对象什么样貌、什么肤色，或者外部器官发生病变甚至缺失，只要对象是人，程序都应该做出人脸的判断，统计调查对象识别也一样，无论是大企业还是小企业，甚至企业部分数据缺失，程序都应该能判断出这是企业填报的数据，除非数据是非专业人员人为臆造的。在这种情况下，我们的调查单位应有一个通用的标准，而这个标准在多维数据空间中应该映射到一个具体的点（我们称之为中心点），而各个调查企业与这个点的距离（相似度）就是判断企业数据真伪的标准。

5.对2、3、4 步累加结果计算cosα。

注：

在现实中我们依然很难计算出中心点的具体位置，因为我们使用的是图形模式相似度距离，而不是绝度量距离。在这种情况下我们可以变通一下，首先我们设想一下调查对象在多维空间中的可能分布情况，第一种情况是多数单位聚集在一个簇中，少数指标游离于簇外。第二种是形成多个簇。不管是哪种情况，每个簇必然至少有一个离中心点距离最近的调查对象点，而以这个点为中心将囊括该簇最多的调查对象，这样寻找中心点的问题转化为寻找包含样本最多的问题，这也呼应了聚类分析的优势，因此我们使用K 中心点聚类算法，首先设定K 等于1，验证第一种设想。

注：

算法：发现包含等距离（相似度）调查对象最多的点

综上所述,循证护理干预可以明显降低胸椎骨折患者术后并发症的发生率,改善患者疼痛程度和不良心理状态,有利于疾病康复。

FindCore（m，datamatrix）

1.当i 小于调查对象数时继续执行，否则跳到5 执行。

4.判断与i 相似度低于设定值的调查对象数是否创新低，如果创新低则存储，否则i 加一跳到1 行继续执行。

3.计算i 与datamatrix（归一化后数据矩阵）每一行（j）的相似度，记录相似度低于设定值的行。

这时，餐厅的大门突然打开，整个屋里瞬间鸦雀无声。我回过头去看，一个年轻人走了进来，周围一片死寂，连一根针掉到地上都能听到。他脸上到处都是穿孔，多到数不过来，一头长发又黑又油腻。但让他看起来很有威胁的还不是这些，而是他扫视一切时的那种冷酷眼神。

2.当j 小于调查对象数时继续执行。

(3)提高落实工作的能力。进一步探索建立广西财产行为税分税种专业骨干团队，组建财产行为税人才库，为推进新时代财产行为税工作提供人才支撑。要有侧重地抽调人才库人员分税种组织研究政策、征管问题，承担相应的课题研究和重点难点项目攻坚等工作。对现行税制存在的突出问题，各基层地税机关要主动参与进来，抓住千载难逢的立法调研、政策规范、强化征管机遇，将真正肯干事、能干事、会干事的专业人才集中起来，上下联动、协同推进财产行为税重点工作，发挥分税种专业骨干团队集体攻关的作用，使专业人才在干事创业、攻坚克难中锻炼能力、提升素质、实现价值。

5.输出所有记录的中心点及对应的低相似度调查对象集合。

（四）实验结果

以联网直报平台查询导出默认顺序对数据进行扫描，以每个调查对象为中心点执行聚类，并记录每一次扩大聚类范围时的中心点及聚类单位数，表2 记录了2 月份B203 表每次扩大聚类范围时的中心点及相关度较低的调查对象。以最后第一个出现的最大聚类集为最优聚类集，表3 记录了对2 至7 月份数据进行聚类后的中心点及相似度低于0.9 的调查单位。

表2 2 月份B203 表调查单位聚类结果（空白区相关度大于0.9）

续表

表3 2-7 月B203 表数据分析结果

续表

三、结果分析

从表3 可看出，填写B203 表的调查单位聚集度较高，99.9%的调查单位聚集在不低于0.9 相似度的集群中，这说明我们选用的样本数据整体上是稳定的，没有受到个别离群单位影响，这符合第一种设想，也证明在初步分类中全省B203 表填报质量较高。

逐月观察可以发现，2 至7 月份与核心点相似度低于0.9的调查单位在逐步增多，相似度持续低于0.9 的企业中宇通客车、鸿富锦电子、双汇实业、天方药业和中烟工业始终保持与不同核心点的近似相似程度，企业数据与核心点相似度较低应该是企业特殊经营管理造成的（见图4）。

某些地域范围内的乡土建筑总能呈现出相近的类型特征，而这种特征就成为不同乡土建筑类型划分的重要依据。我们可以借鉴符号学及语言学的方法，以“适切项”为条件，尽量选取独特性较强的区域范围作为基本型(即本文所说的“原”)，进而划分不同的源头。在选择中，大范围根据影响建筑最深的“地盘”（平面）、“侧样”、“正样”（剖面），并结合具体的用尺、营造细部特色——“细样”或“小样”，加以甄别 [8]。

图4 持续低于0.9 并保持稳定的企业

中石化中原油田、义马煤业、羚锐制药和省电力公司，从2月份开始与不同核心点相似度就小于0.9，并呈持续下降态势，说明企业填报数据与核心点的差距在逐步拉大（见图5）。

图5 相似度低于0.9 并逐步下降的企业

表3 中其他企业如郑煤、富泰华电子、焦煤和中石化河南勘探局从最初与核心点高于0.9 相似度逐步下滑至低于0.9 相似度，体现了企业填报模式由高度接近核心点逐步偏离核心点（见图6）。

图6 相似度高于0.9 下滑至低于0.9 的企业

而大多数调查单位始终保持高于0.9 的相似度，反映了大多数企业始终坚持稳定合理的填报模式，确保统计数据整体稳定。

本文系统梳理与总结中国改革开放以来的生态文明建设与实践,分析当前生态文明建设的难点与重点,针对存在的问题与不足,提出进一步推进生态文明建设的路径和制度创新。

四、改进方向

余弦相似度通常用在文档相似性度量领域，本文创新性地将余弦相似度用在企业填报数据的图形识别上，试图探索出一条抛开价值量含义，实现整体识别判断的新道路。通过实现，发现图形识别确实能够发现企业填报模式的区别，但灵敏度需要进一步改进。

（一）加强数据预处理

虽然前期我们对数据删除了零值较多的列，进行了极差归一化处理，但数据预处理工作仍有改进的空间。由于调查对象属性指标较多，需要进一步判断是否需要进行主成分分析，筛选更具代表性的属性，剔除干扰属性，提高识别准确率。此外极差归一化只是将价值量指标的值域直接映射到[0,1]范围内，但是指标分布密度没有本质改变，能否增加一个散列函数，将指标均匀分部到[0,1]之间，从而合理扩大均匀散布调查对象的值差距。对指标中的相同数字处理也是需要进一步考虑的问题，不等于零的重复价值量是有意义的，而相同的零值被判断为高度相似就应该设法筛除掉。

（二）有针对性改进相似度计算

加强数据理论学习，研究余弦夹角相似度计算内在规律，针对统计数据图形规律优化计算过程，提高相似度计算的准确性。

（三）提高存储运算能力

样本数据只有二十个属性、两万多条，相关度的计算量已经上亿次，单机计算时间达数小时，如何优化存储、提高运算能力是下一步必须考虑的问题。

患者不同程度的焦虑，产生应激，导致心血管系统发生变化，血浆中肾上腺素激素水平和NK淋巴细胞增多，影响治疗［5］。音乐疗法（MT）可以从非药物干预方面抑制患者的应激反应，减轻焦虑和神经系统的应激，有益治疗。

（四）分行业、分地区进一步分析数据

从初步分析判断看，样本数据整体质量较高，99.9%的数据保持较好的凝聚度。进一步深入分析数据，提高相似度判断灵敏性，分行业、分地区探索优化分类条件。

参考文献：

[1]Pang-Ning Tan，Michael Steinbach，Vipin Kumar. 数据挖掘导论[M].范明，范宏建，译.北京：人民邮电出版社，2006.

[2]何跃.宏观经济数据挖掘理论与方法[M].成都：四川大学出版社，2013.

[3]王朝霞. 数据挖掘[M]. 北京：电子工业出版社，2018.

[4]Peter Harrington.机器学习实战[M].李锐，李鹏，曲亚东，等译.北京：人民邮电出版社，2013.

[5]熊赟，朱扬勇，陈志渊.大数据挖掘[M].上海：上海科学技术出版社，2016.

[6]Magnus Lie Hetland. python 基础教程（第3 版）[M].袁国忠译.北京：人民邮电出版社，2018.

10.13999/j.cnki.scyj.2019.05.005

（作者单位：河南省统计局数管中心）

标签：数据论文; 余弦论文; 对象论文; 企业论文; 指标论文; 社会科学总论论文; 统计学论文; 统计方法论文; 统计资料的分析和整理论文; 《市场研究》2019年第5期论文; 河南省统计局数管中心论文;