摘 要:在本科专业“统计学”课程教学过程中,对大学生的大数据处理能力的培养是一个薄弱环节。本文以因子分析模型为例,探讨R软件在统计学教学中的应用。通过R软件的案例教学,激发本科生的学习兴趣,提高他们的数据处理与分析能力,进一步彰显培养应用型本科专业人才的目标。
关键词:统计学;R软件;因子分析
随着互联网行业的发展,大数据越来越膨胀,所涉及的领域也越来越多。它不仅在生物、医学、物理、化学等领域作用巨大,而且在电子商务、物流配送、旅游管理等经济、管理类领域的应用也更加广泛。例如,电商企业通过对平台用户的浏览痕迹进行记录分析,针对不同层次类型的用户提供特定的商品推荐信息,实现精准营销等。无论是分析生物医学等领域数据的内在相关性,还是探讨经济管理等领域数据所涉及的相关决策信息,都离不开统计建模与分析。因此,掌握统计学的相关理论知识与实践操作技能具有十分重要的现实意义。
为了让学生尽快适应当今社会对大数据人才的需求,很多本科院校对“统计学”课程的理论课时和实验教学课时进行了调整,适当增加实验教学课时的主要目的是提升学生的软件操作能力和实践能力。目前应用于统计学实验的软件主要有SAS、SPSS、STATA和R软件等。SAS软件是一个模块化、集成化的大型应用软件系统,是一款专业的统计计算软件,功能非常强大,并且全面。SPSS软件是一个集数据录入、整理、分析功能等于一身的软件。用户能够根据实际需要和计算机的功能选择模块,从而降低对硬盘容量的要求。另一方面,它的分析结果清晰、直观、易学易用,还可以直接读取DBF及EXCEL数据文件,目前已被推广到多种操作系统的计算机上。STATA软件是一套用户进行数据分析、数据管理以及绘制专业图表等的统计软件。它提供许多统计模型计算功能,包含线性混合模型等,特别是在统计图形的制作方面比较优秀。每种统计软件应用于统计数据分析均存在优劣点。相比较以上几种软件,R软件占用内存非常小,可以免费获取安装,并且十分灵活。因此,许多统计工作者采用R软件进行《统计学》课程的编程操作。
案例教学法能够有机地使理论与实践相结合,因而在教学法体系中具有不可替代的重要地位。而药理学教学中运用案例教学法的优势主要有:它是突显医药学专业实践能力培养的最佳选择;它是提高执业医师、药师资格考试通过率的有效途径;案例教学与高级技能型人才培养的目标一致,能够有效加强医药人才的执业能力[17-19]。
一、R软件介绍
R软件[1]是由奥克兰大学的Robert Gentleman和Ross Ihaka以及其他人员开发的一个系统。R软件提供了一个开放的统计编程环境,并且它有一套完整的数据处理、计算和制图软件系统。另外,它最大的一个优点能够将全球最优秀的统计应用软件打包提供给用户,并且为用户提供灵活的处理数据环境。基于R软件开放的软件包,一方面在实践教学环节可以让学生直接调用函数命令实现统计计算功能,对数据进行直接分析。另一方面,获取开放的源代码,能够让学有余力的学生学习程序语言的编写,提高自己编写程序的能力,以便将来分析更复杂的统计模型。同时,在编写程序的过程中,学生也可以加深对理论知识的学习,巩固所学知识。
目前很多教师已经将R软件应用到统计学教学实验中。例如,有些利用R软件的数值和图形功能展示数理统计的基本概念和结论,并对案例进行回归分析和logistics回归分析[2-5];有些则是探讨R软件简化统计计算,将其应用在显著性检验和置信区间的求解上[6-8];蒋思瑶[9]将R软件应用到Bayes统计分析中,主要有二项分布模型、泊松分布模型和广义线性模型等方面的应用实例;胡良平[10]介绍了如何利用SAS软件和R软件进行主成分分析等。然而,利用R软件进行因子分析的教学案例并不常见。因此,本文将利用R软件探讨因子分析模型的教学案例。
二、基于R软件的统计学课程教学案例
她和年轻女子在餐厅里偶遇。对方很瘦,每天抽两包香烟,轻度抑郁症,滔滔不绝说话。有时亢奋,有时焦躁,有时粗暴,有时温驯。她们尝试各种触摸和爱抚的可能性,在女孩窄小的公寓里,在点燃着印度香的闷热房间里赤裸,聊天倾谈,喝酒,有时无端哭泣。女孩深深爱恋和依赖她,而她知道这一切不过是嬉戏流连。诉说,倾听。进入,被进入。饱足的平衡。
我国目前上市的商业银行有工商银行、建设银行、农业银行、中国银行、交通银行、招商银行、民生银行、平安银行、兴业银行、中信银行、光大银行、浦发银行、华夏银行、北京银行、南京银行、宁波银行,一共有16家。下面将对上市商业银行经营绩效进行因子分析分析,这有助于了解我国上市商业银行的经营绩效。
1.3 中药拉丁名与基源植物的拉丁学名在对中药整体认知中的作用 使用中药基源植物正确的拉丁学名,是在药典中准确检索到与之对应的中药材及其制剂信息的重要手段。同时使用上述4种检索方式,便于学生认识中药材中文名、拉丁名和基源植物的拉丁学名之间的对应关系。加上药典正文的描述,便于进一步从性状、鉴别等方面对基源植物、药用部位建立起整体认识。中药基源植物的拉丁学名和中药材的拉丁名是国际上通用的名称,准确掌握与使用有利于国际间的交流与合作研究。
通过巨潮资讯网查询各个上市银行2017年年报,获得上述16家银行的财务数据。该数据包含各上市银行的资本收益率X1、净资产收益率X2、成本收入比X3、营业收入利润率X4、人均利润率X5、资本充足率X6、不良贷款率X7、拨款覆盖率X8、流动比率X9、资产负债率X10、资产增长率X11、净利润增长率X12、营业收入增长率X13、营业利润增长率X14,共14个财务指标,原始数据见表1。
表1 上市商业银行财务数据
针对表1的原始数据,下面将利用R软件说明因子分析的过程。首先,通过函数read.tabel从外部录入数据,接下来调用函数factanal对原始数据进行因子分析。具体程序如下:
可以计算各银行的综合得分,具体结果见表4。
Fa<-factanal(~.,factors=5,data=Mydata,rotation=“varimax”,scores=“regression”)
因子分析的原理是对多个指标进行降维,利用少数几个公共因子去描述许多指标或因素之间的联系。在进行因子分析后,通过计算因子得分实现综合评价和排名。运用这种研究技术,可以很方便地找出影响上市商业银行盈利能力、运营能力、成长能力、流动性和安全性等方面的主要因素以及它们的影响力。
利用命令Fa$loadings能够得到方差解释表(见表2)和旋转后的因子载荷矩阵(见表3),最后利用命令Fa$scores能得到每家银行的各主因子的得分,通过公式
F=Factor 1*0.217+Factor 2*0.214+Factor 3*0.172+Factor 4*0.157+Factor 5*0.070
Z.score<-scores.matrix$Factor1*0.217+scores.matrix$Factor2*0.214+scores.matrix$Factor3*0.172+scores.matrix$Factor4*0.157+scores.matrix$Factor5*0.070
SCORES<-data.frame(scores.matrix,Z.score)
其中factors表示选取的主因子个数,rotation表示因子旋转方法,scores表示计算因子得分的方法,Z.score是用来计算每家商业银行的综合得分。
表2 方差解释表
SSloadings Proportion Var Cumulative Var Factor 1 3.038 0.217 0.217 Factor 2 3.000 0.214 0.431 Factor 3 2.407 0.172 0.603 Factor 4 2.202 0.157 0.760 Factor 5 0.985 0.070 0.831
血清CysC与RBP4联合检测对糖尿病早期肾损害的诊断价值较高,任意一个阳性可以避免漏诊,双阳性可以避免误诊,联合诊断效用高于单独诊断。
苹果幼树枝量和花芽形成能力是早产、稳产的保证。目前,有不少措施可以促进幼树尽快扩大枝量、尽早大量形成花芽,以尽早形成产量。目前传统的方法都存在这样那样的缺点。寻求新的、更加安全高效的药剂是目前苹果矮砧现代栽培模式的需求。通过上述试验我们发现,发枝促花剂有效提高了当年定植小树的成枝能力,显著提高2年生树侧枝芽萌发率,抽生新枝多为中短枝条,孕育大量花芽,能够提早1~2年进入结果期,并且树势保持中庸,为早产打下坚实的基础。
scores.matrix<-data.frame(Fa$scores)
Mydata<-read.table(“syyh.txt”,header=TRUE)
表3 因子载荷矩阵
Factor 2 Factor 5 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 Factor 1-0.102 0.320 0.226-0.122 0.163-0.159-0.323 0.139-0.751 0.460 0.817 Factor 3-0.387 0.473 0.272-0.325-0.131-0.869 Factor 4 0.828 0.805-0.416 0.684 0.116 0.227-0.166-0.150 0.531 0.934 0.661 0.696 0.776-0.761 0.676-0.348 0.172-0.174 0.331-0.101-0.112 0.109 0.275-0.413 0.126 0.164 0.566 0.136 0.389-0.115 0.767 0.153 0.426 0.138 0.310 0.586-0.107 0.524
表4 上市银行各主因子得分及综合得分
银 行中国银行工商银行建设银行农业银行交通银行平安银行中信银行华夏银行光大银行浦发银行兴业银行民生银行招商银行北京银行南京银行宁波银行Factor 1-1.001-0.883-0.466-0.965-0.646 1.159-1.334-0.108 0.471-0.563 1.083 1.321 0.161-0.357 0.094 2.035 Factor 2-0.567-0.232-0.620-1.473-0.139-0.853 0.592-0.887 0.494 1.206 1.566-0.354-0.596 2.025 0.240-0.404 Factor 3-0.538-0.223-0.798 1.039-0.849 0.062-0.117 1.170 0.901 0.634 1.113 1.095 0.432-0.497-1.858-1.564 Factor 4-0.214 1.462 1.277 0.054-0.123-1.885-1.167-1.436-0.035-0.233 0.987 0.677 1.421-0.448-0.225-0.112 Factor 5-0.346-0.108-0.106-0.080-0.119-0.222-2.385 1.832-0.190 0.120-0.224-0.286 0.241 1.291 1.357-0.777综合得分-0.489-0.058-0.178-0.343-0.344-0.232-0.533-0.109 0.344 0.217 0.901 0.486 0.222 0.291-0.188 0.014综合得分排名15 8 10 13 14 12 16 9 3 6 1 2 5 4 1 1 7
从表2可以看出,选取5个公共因子的累积方差贡献率达到83%,说明这5个公共因子包括了14个原始指标体系信息量的绝大多数,用这5个主因子来评价商业银行的竞争力是完全可行的。
金融支持水平(fint):陈志伟用期末存贷款余额与GDP之比来衡量金融支持水平[9]11。基于数据的可得性,并考虑到城镇化推进或城镇发展过程中教育、医疗等公共服务以及交通、通信、环境保护等基础设施方面的资金需求,以及产业发展所需设备更新资金,本文采用城镇固定资产投资额与年末金融机构贷款总额之比来衡量金融支持水平。
建立该机制要围绕建立档案、转移时机、转移安置、转移人员回迁等相关内容细化。建立档案就是分乡镇分类建立山洪威胁区、地质灾害隐患点、水库山塘下游、危旧房、切坡建房危险户、五保户等重点部位和威胁区域人员转移档案资料,并划定危险等级,明确威胁区人员转移路线、安置地点、行政责任人、预警责任人、技术责任人、转移责任人等;转移时机就是由各乡镇根据巡查、排查发现的险情划分危险等级,确定在什么情况下转移威胁区群众;转移安置应就转移安置方式进行明确;转移人员回迁是解决在响应解除后,在确保安全的前提下,乡镇有序组织人员回迁,做好回访并发放温馨提醒卡。
利用回归分析计算出得分矩阵,根据得分矩阵计算出所有银行在各主因子上的得分以及综合得分。表4给出16家商业银行在每个公共因子上的得分和综合得分以及排名。从综合得分排名来看,我国四大国有商业银行的排名靠后,城市商业银行中兴业银行、民生银行、广大银行排名比较靠前,这说明国有商业银行的竞争力还有待进一步提升。
为了便于解释公因子的含义,通过方差最大化正交旋转,得到旋转后的因子载荷矩阵,见表3。从表3可以看出,第1主因子在X11(资产增长率)、X12(净利润增长率)、X13(营业收入增长率)和X14(营业利润增长)上载荷较大,说明第1主因子反映了这些指标的信息,可以把第1主因子命名为成长能力指标综合指标。第2主因子在X3(成本收入比)、X5(人均利润率)、X7(不良贷款率)和X8(拨款覆盖率)上载荷较大,可以把该因子命名为安全性综合指标。依次可以给第3、第4和第5主因子分别命名为运营能力综合指标、盈利能力综合指标和流动性综合指标。
文中程序是直接调用函数factanal计算因子分析。然而,在计算因子分析之前,事先并不清楚提取几个公共因子。因此,可以利用函数fa.parallel绘制碎石图,进行探索性分析提取公因子的个数,具体见图1。接着调用fa函数提取公共因子,利用fa.diagram函数绘制因子解释图,具体见图2.具体程序如下:
library(psych)
Mydata<-read.table(“syyh.txt”,header=TRUE)
yinhang.cor=cor(Mydata)
fa.parallel(yinhang.cor,n.obs=NULL,fa=“both”,n.
图1 碎石图
图1 是显示因子重要程度的碎石图,其中横轴表示因子序号,纵轴表示特征值的大小。根据点间连线坡度的陡峭程度可以直观地看出选取4~5个因子是比较合适的。图2直接表明了哪些指标聚为一个因子,最后再对主因子分别命名即可。
图2 主因子解释图
四、结语
R软件获取方便,利于学生随时下载安装。本文在统计学课程中引入该软件进行辅助教学,并以因子分析为例,可以让学生们加深对因子分析法的理解。另外,通过获取程序包及其源代码,还可以提升学生们的编程操作能力。
[参考文献]
[1]薛毅.统计建模与R软件[M].北京:清华大学出版社,2007.
[2]安丽霞,卢丑丽,燕扬.初探R软件在独立院校概率论与数理统计教学中的应用[J].大学教育,2018(9):102-104.iter=100,main=“Scree plots with parallel analysis”)
Fa1<-fa (yinhang.cor,nfactors=5, rotate=“varimax”,fm=“pa”,score=TRUE)
factor.plot(Fa1,labels=rownames(Fa1$loadings))
fa.diagram(Fa1)
[3]黄新,王梦贤,周密.R软件在统计学实验教学中的应用[J].现代职业教育,2018(13):68-69.
[4]徐付霞,李亚威.基于统计软件R的《数理统计》实验教学案例[J].高等数学研究,2018(1):61-64.
[5]周晓东,王云娟.基于统计软件的统计学教学研究与实践[J].大学教育,2018:45-48.
[6]赵为华.R软件在概率论与数理统计案例教学中的应用[J].福建电脑,2018(5):171-172.
[7]金秀玲.初探R软件在概率统计教学中的辅助作用[J].牡丹江教育学院学报,2018(8):63-66.
[8]邓丽.R统计软件在区间估计教学中的应用[J].考试周刊,2016(98):112-112.
[9]蒋思瑶.R软件在Bayes统计中的应用[J].商业经济,2014(13):93-94.
[10]胡良平.基于SAS与R软件的主成分分析[J].四川精神卫生,2018(2):31-36.
Application of R Software in Statistics Teaching:A Case Study of Factor Analysis Model
LIU Jun-e
(School of Management,Huaibei Normal University,Huaibei,Anhui 235000,China)
Abstract:In the teaching process of undergraduate specialty,the cultivation of big data processing ability is a weakness.Taking factor analysis model as example,this paper discusses the application of R software in statistics teaching.It aims to stimulate,through case teaching of R software,the students’interest in learning,and to improve their ability in data processing and analyzing,thus further highlighting the goal of cultivating application-oriented undergraduates.
Key words:statistics;R software;factor analysis
中图分类号:O21
文献标识码:A
文章编号:2096-2126(2019)03-0149-04
[收稿日期]2019-03-25
[基金项目]淮北师范大学校级质量工程项目“培养应用型人才为核心的统计学课程教学改革研究”(JY18030);安徽省质量工程项目“经济学专业综合改革试点”(2016ZY111)。
[作者简介]刘君娥(1980—),女,湖北天门人,博士,讲师,研究方向:数理统计及其应用。
①巨潮资讯网http://www.cninfo.com.cn/new/index。
(责任编辑:雷凯)
标签:因子论文; 软件论文; 统计学论文; 银行论文; 主因论文; 《广西科技师范学院学报》2019年第3期论文; 淮北师范大学校级质量工程项目" 培养应用型人才为核心的统计学课程教学改革研究" (JY18030) 安徽省质量工程项目" 经济学专业综合改革试点" (2016ZY111)论文; 淮北师范大学管理学院论文;