旷开金:PLS-SEM和关联规则的《多元统计分析》教学效果影响因素实证研究论文

旷开金:PLS-SEM和关联规则的《多元统计分析》教学效果影响因素实证研究论文

摘 要:《应用多元统计分析》是高等院校统计学专业的重要的实用性必修主干课程,主要运用数理统计的方法来研究多变量的相互依赖关系和内在统计规律。通过班级调查问卷收集实际数据,运用可视化原理、结构方程模型、关联规则,从实证角度分析探讨影响教学效果的影响因素并提出相关建议。

关键词:多元统计分析;SEM模型;可视化;关联规则

多元统计分析是统计学中讨论多维随机变量的统计方法,是处理多维数据不可缺少的重要工具,它能够在多个对象和多个指标互相关联的情况下分析数据间的统计规律[1]。多元统计分析是统计学专业中的一门应用性、操作性极强的核心专业课,是统计学专业的主干课程,随着计算机的广泛应用,统计软件的普及,日益受到人们关注,被广泛应用于各个领域[2]。然而,随着大数据时代来临,各种各样信息资料的爆炸式增长给多元统计分析课程教学带来了前所未有的挑战[3]。《多元统计分析》作为一门技术性课程,在各专业领域都具有应用背景,相关学者也开展了一定的研究。纪志荣[4]等对农林类统计学专业教学,分析了目前课程教学存在的问题,从教学理念、教学目标、教学内容、实践教学等方面入手,全面、系统地论述了教学体系改革的内容、方法和途径。马金凤等[5]结合多元统计分析课程特点、教学中存在的问题及应用现状,提出对该课程进行教学改革,如淡化数学理论,以激发兴趣为导向,强化实践能力培养,优化考核方式等措施,以提高医学研究生多元统计分析的理论水平和实际应用能力。

杨萍(1959-),女,医学博士,教授,博士生导师,研究方向:冠心病、心律失常、心力衰竭的发病机制和诊疗。

然而,目前学者针对《多元统计分析》教学改革的探讨局限于定性讨论,缺乏相关实证研究。文章基于实际调查数据,运用可视化原理,结构方程模型及关联规则方法,探讨《多元统计分析》教学影响因素,并提出有效改进措施,旨在有针对性提升教学效果提供可靠参考依据。

重晶石取自贵州镇宁,含BaSO4 86.88%,BaCO3 0.22%,SrSO4 0.23%,SrCO3 0.022%,SiO2 11.26%,Fe2O3 0.014%,Al2O3 0.13%;无烟煤由贵州某厂提供,含C 74.02%,SiO2 6.17%,Fe2O3 5.35%,Al2O3 2.16%。制得的重晶石熟料成分分析结果见表1。

1 问卷设计和样本获取

1.1 题目设计

问卷编制了20个题目 (含一道开放性问题),并采用五级评分设计了题目选项,5分代表“非常满意”,1分代表“非常不满意”,研究表明问卷所有量化题目分值取值方向一致即可。根据问卷调查,进行了预调查及问卷信度和效度分析,并据此对问卷进行了修改,确定了正式问卷。

1.2 样本选择与数据收集

研究以教学班级83名统计学专业学生为调查对象,分析不同态度、行为和学习方法因素下,多元统计分析学习效果的影响路径。调查过程中,调查人员亲自向被调查对象发放问卷,当面填写、回收。此次调查共发放问卷83份,回收83份,有效问卷83份。其中,男性占比30.10%,女性占比69.90%,卡方检验表明,男女比例与专业实际男女比无显著差异(P>0.05)。因《多元统计分析》为统计学专业学生的必修专业课,调查样本具有一定的代表性。

1.3 信度与效度分析

其中,η为内生隐变量,ζ为外生隐变量,X与Y为显变量。∧x和∧y反映X对ζ和Y对η的关系强弱系数矩阵。ε和δ为Y与X的测量误差。

新的改革,往往缺乏实际操作和有效的执行能力。从实际操作层面来看,政府会计制度已经公布,未来事业单位会计将更加复杂。会计的两套报告,一套满足财务管理需求,另一套则满足事业单位的管理需求。在常规会计制度的框架内,财务人员的专业判断力不断提高。

2 数据可视化分析

2.1 不同态度与行为与成绩马赛图

式中为包含项目X的事务数表示同时项目X和项目Y的事务数。

图1 马赛克图
Figure 1 Graph ofMosaic

2.2 成绩与学习态度、学习方法相关图

式中为总事务数。

表1 不同科目成绩间相关系数
Table 1 Correlation coefficientbetween different subjects

注:*P<0.05;**P<0.01

相关系数 GSScore XDScore GLLScore DYScore ZY_attitude ZY_method GSScore 1.0000 0.52** 0.43** 0.47** 0.28* 0.2000 XDScore 0.52** 1.0000 0.46** 0.49** 0.31** 0.0100 GLLScore 0.43** 0.46** 1.0000 0.49** 0.43** 0.0700 DYScore 0.47** 0.49** 0.49** 1.0000 0.40** -0.1000 ZY_attitude 0.28* 0.31** 0.43** 0.40** 1.0000 0.0100 ZY_method 0.2000 0.0100 0.0700 -0.1000 0.0100 1.0000

图2 不同科目成绩间相关系数图
Figure 2 Graph of correlation coefficientbetween differentsubjects

3 结构方程模型

3.1 结构方程模型原理

在期末考试满意度一般中,个体满意度倾向表现为与基础课程息息相关。这部分同学《高等数学》、《线性代数》、《概率论与数理统计》成绩集中在60~79分之间,针对《多元统计分析》的数据处理方法不明确,表现为学习效果满意度一般。调查数据表明,高数成绩、线性代数成绩在60~79分之间,分析能力提高不确定的学生中,认为期末考试满意度一般占81.82%,仅有18.18%个体满意。

上海南洋公学,即今上海交通大学的前身。1896年由盛宣怀创建于上海,与北洋大学堂同为中国近代史上最早创办的大学;1905年更名为“商部上海高等实业学堂”;1907年更名为“邮传部上海高等实业学堂”;辛亥革命后1911年到1912年间为“南洋大学堂”;1912年中华民国成立后,更名为“交通部上海工业专门学校”;1921年更名为“交通大学”。[2]45

为检验所获取数据的可靠性和有效性,对调查问卷进行信度和效度分析,运用Cronbachα系数检验问卷信度,用KMO和Bartlett球形检验分析问卷效度。结果显示,每个结构变量以及总体的Cronbachα系数均大于0.7,说明问卷具有较高信度;总体KMO系数大于 0.8,且 Bartlett 球形检验 P 值小于 0.01,说明问卷具有较高效度。

结构模型可用如下方程表达:

关联规则分析常用的算法有Apriori算法和Eclat算法。Apriori算法可克服简单搜索可能产生的大量无效规则,计算效率低下等问题。文章基于Apriori算法[6-7],分析不同置信度和支持度下,选择提升度大于1的规则,分析《多元统计分析》期末考试成绩满意度与其他因子间的关联,结果见表3。由表3可知,关联规则后项支持度期末成绩满意度主要为满意和一般。在期末成绩满意中,能理解所学知识,能运用所学知识理解生活和学习中问题的个体,期末考试成绩满意度也高。调查数据表明,能理解所学知识,能运用所学知识理解生活和学习中问题的学生中,期末考试成绩满意及非常满意的占80%,这一部分学生能理解整个教学课程的来龙去脉,并运用到实际,这与主动思考问题是分不开的。另一些个体特征表现为,课程考试成绩较高,希望能进一步加深学习,期末考试成绩满意度较高,表明这部分同学学习目标明确,主动性强。还一些个体特征表现为,课堂积极思考,时常与同学沟通学习经验,对教学方式较为认可,表明这部分同学,由于课堂本身激发了兴趣,从而促进学习的自发性、主动性。

3.2 结构方程模型构建

为研究变量间相互关系,设定学习态度、学习方法、学习效果为潜变量。在进行结构方程模型分析前,需要根据研究的问题确定显变量和潜变量间的关系。结构方程模型分析方法主要有偏最小二乘法(PLS)和协方差法,偏最小二乘法不对数据做任何分布,根据原始数据迭代,从而估计出隐变量的值。文章基于R中plspm包,基于偏最小二乘方法和结构方程模型原理,构建结构方程模型。结果表明,均方根残差RMR为 0.098,拟合优度 GFI为 0.863,表示模型拟合度较好,图3和表2反映了潜变量间的相互关系。由图3和表2可知,学习态度、学习方法对学习效果具有显著的正向影响。同时,学习态度潜变量、学习方法潜变量对学习效果潜变量的路径系数分别是0.618和0.448,说明学习态度对学习效果的影响最大,学习方法次之。这可能是在课堂中,能勤于思考、课前复习,经常反思学习行为的同学,往往学习能达到事半功倍的效果。进一步分析学习态度潜变量对学习效果潜变量影响,其间接路径系数和直接路径系数分别为0.284和0.334和,表明学习态度通过合理的学习方法有助于提升学习效果。

图4反映了测量模型方程中可测变量与潜变量间的相互关系。由图4可知,能积极思考,反思学习态度、课前预习,这三个可测变量在反映潜变量学习态度上影响程度相当且倾向一致,表明三者之间是相辅相成。能与同学沟通交流,能够批判性地理解和认识所学知识是学习方法潜变量中重要因素,说明理解知识和沟通交流对学习的效果具有提升意义。

表2 结构方程模型效应
Table 2 Effectof structural equation model

?

图3 潜变量间效应图
Figure 3 Effect diagram of latent variables

图4 潜变量与观测变量间效应图
Figure 4 Effect diagram between latent variable and observation variable

4 关联规则分析

关联分析的概念由1993年Agrawal,Imielinski和Swami提出,是揭示数据内在结构的重要手段,在定位顾客顾客消费、保险、医疗领域发挥了重要作用。关联分析中,规则置信度、规则支持度、提升度是重要的概念,可由以下定义测度[6]。规则置信度(confidence)是简单关联规则的度量,反映了X出现条件下Y出现的概率,即

为分析作业态度(ZY_attitude),作业方法ZY_method)与《多元统计分析》(DYScore)之间的关联,基于两个以上的类别型变量,通过绘制马赛克图(mosaic plot)描述相互之间的关联分析。作业态度表示是否能自己独立认真及时完成作业,其中,不做作业=1,偶尔=2,经常=3,每次都独立按时完成作业=4。作业方法表示对做布置的作业喜欢以何种方式完成,其中,按照给出的步骤解答=1,按照自己的思路完成=2,和同学们讨论=3,查找资料=4。在马赛克图中,嵌套矩形面积正比于单元格频率,其中该频率即多维列联表中的频率,颜色或阴影可表示拟合模型的残差值。由马赛克图(图1)可知,变量之间存在关联。经常自己独立认真及时完成作业的同学,并且按步解答的同学,期末成绩在80~89分居多,偶尔独立认真及时完成作业的同学,并且按步解答的同学,期末成绩在60~69分居多。还有一部分同学作业未及时完成,作业完成喜欢与同学交流讨论,但成绩在60~69分之间。马赛克图分析表明,大部分同学缺乏独立思考能力,解题缺乏查阅资料能力,造成不能完全理解知识要领。

规则支持度(support),定义为项目X和项目Y同时出现的概率,即

为了将有相似相关模式的变量聚集在一起,运用相关系数图刻画不同科目成绩间相关性。相关系数图中,主对角线下方的单元格,蓝色和从左下指向右上的斜杠表示单元格中的两个变量呈正相关,而浅黄色从左上指向右下的斜杠表示变量呈负相关。色彩越深,饱和度越高,说明变量相关性越大,相关性接近于0的单元格基本无色。上三角单元格用饼图展示了相同的信息,同样色彩越深,饱和度越高,说明变量相关性越大。正相关性将从12点钟处开始顺时针填充饼图,而负相关性则逆时针方向填充饼图。由表1和图2可知,《高等数学》成绩(GSScore)、《线性代数》成绩(XDScore)、《概率论与数理统计》成绩(GLLScore)、作业态度 (ZY_attitude)与 《多元统计分析》成绩(DYScore)呈显著正相关关系(P<0.01),且《高等数学》成绩(GSScore)、《线性代数》成绩(XDScore)、《概率论与数理统计》成绩(GLLScore)之间亦呈显著正相关关系(P<0.05),表明这三科学习成绩与多元统计分析成绩间关联紧密。但作业方法(ZY_method)与《多元统计分析》成绩呈负相关关系,这或许与平时作业布置形式有关,调查数据显示,51.22%同学喜欢按照给出的步骤解答,而只有7.32%的同学能独立查阅资料思考,表明在学习中学生依赖性较强,独立思考能力缺乏,甚至只为应付学业。因此,在教学改革中应着力培养学生独立解决问题思考能力,并着力巩固相关基础数理知识。

提升度(lift)定义为规则置信度与后项支持度之比,用来衡量规则的实用性,有实用价值的关联规则为规则提升度大于1的规则,数学表达式为:

粉末颜色值中L*、b*、ΔE*ab值与姜黄素类各成分的含量均呈现极显著的负相关关系,a*值与姜黄素类各成分的含量均呈现极显著的正相关关系。

式中为前项支持度为后项支持度。

其中,B表示内生隐变量之间的关系,T代表外生隐变量对内生隐变量的影响。ζ为结构方程误差项。

结构方程模型为近30年来在应用统计领域广泛使用的数据分析方法,一般由测量方程和结构方程构成,为反映隐变量和显变量的一组方程。测量方程描述隐变量与指标之间的关系,结构方程则反映隐变量之间的关系。测量模型可用如下方程表达:

5 结论与讨论

文章运用可视化原理,结构方程模型,关联规则原理,实证分析了影响《多元统计分析》的影响因素。

(1)通过可视化原理表明,《高等数学》成绩、《线性代数》成绩、《概率论与数理统计》成绩、作业态度与《多元统计分析》成绩呈显著正相关关系(P<0.01),但作业方法与《多元统计分析》成绩呈负相关关系。根据调查发现,大部分同学对平时布置作业喜欢按照给出的步骤解答,缺乏独立思考能力,以至于换种形式就无从下手。因此,在教学改革中可以尝试通过课堂学生间相互留问,学生间相互课后释疑的方式着力培养学生独立解决问题思考能力。

新课标改革后,高中教育重视思维品质的培养,在高中地理学习中,无论是学业水平考试还是高考,都有较多的考查学生地理逻辑思维能力,主要包括学生对于事物的基本认知跟分析能力和地理知识的实际运用能力。在高考考核要求“认证和探讨地理问题”方面,明确要求学生“能够发现或提出科学的、具有创新意识的地理问题;能够提出必要的论据来认证和解决地理问题;能够用科学的语言、正确的逻辑关系,表达出论证和解决地理问题的过程与结果;能够运用正确的地理观念,探讨、评价现实中的地理问题。”因此,掌握正确的地理逻辑思维能力是对高中学生的一项必备的能力要求。

(2)结构方程模型结果表明,学习态度、学习方法对学习效果具有显著的正向影响。且学习态度对学习效果的影响最大,学习方法次之。其中,学习态度潜变量对学习效果潜变量影响,其间接路径系数和直接路径系数分别达0.284和0.334。在可测变量中,能积极思考,反思学习态度、课前预习,在反映潜变量学习态度上影响程度相当且倾向一致,同时沟通交流,能够批判性地理解和认识所学知识是学习方法潜变量中重要因素。因此,在今后教学中,可以尝试通过实验教程,案例分析,竞赛引导等形式,着力培养学生良好的沟通交流、反思学习习惯。

(3)关联规则表明,能运用所学知识理解生活和学习中问题;希望能进一步加深学习;课堂积极思考,时常与同学沟通学习经验,对教学方式较为认可对自身学习满意度较高。而另一方面表明,基础课程成绩一般的个体学习效果满意度倾向一般。关联规则结果将可视化与结构方程模型结果相统一,因此,对于《多元统计分析》课程的教学特点,积极加入思考,同时巩固基础课程至关重要。

多元统计分析是一门研究多指标随机现象统计规律的统计学科,随着计算机的普遍应用和软件的迅猛发展以及大数据时代的来临,已在在经济、金融保险、生物医学、环境数据、管理工程等相关领域发挥重要作用。今后教学过程中,应着力调动学生积极性,可尝试运用可视化原理,激发学生学习兴趣,将教学与科研、竞赛相结合,达到学以致用的效果。

①加强相关职业生涯规划机构与高校之间的沟通与合作。目前,相关机构对于高校教师的培训,对象是教师,而不是大学生。机构应该更多地与高校一起,共同研究以学生为规划指导对象的有效的教学方法、教学内容、教学模式。

表3 关联规则表
Table 3 Table of association rules

序号 前 项 后 项 支持度 置信度 提升度 规则数1 {能理解所学知识=符合,能运用所学知识理解生活和学习中问题=符合} {期末成绩满意度=满意} 0.108 4 0.818 2 2.122 2 9 2 {考试分数=80~89分,希望能进一步学习数据=符合} {期末成绩满意度=满意} 0.132 5 0.846 2 2.194 7 11 3 {多元统计考试分数=80~89分,分析能力得到提高=符合,课堂中积极思考=符合} {期末成绩满意度=满意} 0.108 4 0.900 0 2.334 4 9 4 {考试分数=80~89 分} {期末成绩满意度=满意} 0.204 8 0.586 2 1.520 5 17 5 {主动和同学交流经验和心得=有时如此} {期末成绩满意度=满意} 0.241 0 0.571 4 1.482 1 20 6 {教学方式满意度=满意} {期末成绩满意度=满意} 0.265 1 0.500 0 1.296 9 22 7 {课堂中积极思考=符合,教学方式满意度=满意} {期末成绩满意度=满意} 0.216 9 0.600 0 1.556 3 18 8 {高数成绩=60~79分,线性代数成绩=60~79分,分析能力得到提高=不确定} {期末成绩满意度=一般} 0.108 4 0.818 2 2.057 9 9 9 {线性代数成绩=60~79分,概率论成绩=60~79 分,分析能力得到提高=不确定} {期末成绩满意度=一般} 0.108 4 0.900 0 2.263 6 9

参考文献:

[1]刘银萍,安丽微.多元统计分析课程教学的探索与实践[J].吉林师范大学学报(自然科学版),2011(3):96-97+101.

[2]朱辉.《应用多元统计分析》课程教学改革实践探索:立足于”学以致用”视角[J].统计与咨询,2012(3):38-39.

[3]朱辉.大数据时代多元统计分析课程教学模式构建[J].统计与管理,2016(12):11-15.

[4]纪志荣,何东进,刘金福等.农林院校统计学专业《多元统计分析》课程教学探索[J].教育教学论坛,2017(4):135-136.

[5]马金凤,严卫丽等.医学研究生多元统计分析课程的教学改革[J].医学研究与教育,2010,27(3):97-99.

[6]薛薇.R语言数据挖掘 [M].北京:中国人民大学出版社,2016:319-355.

[7]吴喜之.复杂数据统计方法:基于R的应用(第三版)[M].北京:中国人民大学出版社,2015:179-187.

An Em pirical Study on the Influencing Factors of Teaching Effect of M ultivariate Statistical Analysis Based on PLS-SEM M odel and Association Rules

KUANG Kaijin1,4,ZHENG Kaiyan1,LIU Jinfu*2,4,XU Daowei3,4,PEIWenqing2,ZHENG Silin1
(1.School of Finance,Fujian Jiang Xia University,Fuzhou,Fujian 350108;2.School of Computer and In formation Science,Fujian Agriculture and Forestry University,Fuzhou,Fujian350002;3.School of Forestry,Fujian Agriculture and Forestry University,Fuzhou,Fujian 350002;4.Key Laboratory of Fujian Universities for Ecology and Resource Statistics,Fuzhou,Fujian 350002)

Abstract:Application of multivariate statistical analysis is an important compulsory course in themajor of statistics in colleges and universities.This paper collects the actual data through the class questionnaire,applies the visualization theory,the structural equation model and association rule to analyze and discuss the influencing factors of the teaching effect from the empirical angle and put forward the relevant suggestions.

Key words:multivariate statistical analysis;SEM model;visualization;association rules

中图分类号:G642.0

文献标示码:A

文章编号:1674-2109(2019)03-0104-06

收稿日期:2018-10-29

基金项目:福建江夏学院2018年校级教学改革研究项目(J2018B019);国家自然科学基金(31770678);国家统计局重点项目(2015LZ18)。

作者简介:旷开金(1988-),男,汉族,中级统计师,研究方向:数据挖掘、数据可视化。

通讯作者:刘金福(1966-),男,汉族,教授,博士生导师,研究方向:生物统计学。

(责任编辑:赵其领)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

旷开金:PLS-SEM和关联规则的《多元统计分析》教学效果影响因素实证研究论文
下载Doc文档

猜你喜欢