陈军:文氏图在计量统计类课程教学中的应用——以多重共线性内容为例论文

陈军:文氏图在计量统计类课程教学中的应用——以多重共线性内容为例论文

摘要:文氏图属于集合论数学分支,用于展示不同集合(群组)之间的数学或逻辑关系,常被用于集合(类)运算。文氏图简单形象,便于理解,在计量统计类课程中多有应用。多重共线性的内容在《统计学》《计量经济学》课程中都有涉及,也是教学中的一个重点和难点。在教学实践中,一般采用定义数学方程、矩阵等讲授,通过借助文氏图可有效提高教师的教学效果和学生对此内容的理解掌握。

关键词:文氏图; 多重共线性;教学应用

在多元线性回归中,通常采用OLS(最小二乘法)作为估计回归模型参数的方法,但需满足若干基本假定,包括关于变量和模型的假定和关于随机扰动项统计分布的假定。其中假设之一就是解释变量间不存在多重共线性,但在实际研究中,模型中的解释变量间往往存在不同程度的共线性问题,对此情形需要进行相应的消除解决,再行应用OLS。多重共线性的内容在“统计学”“计量经济学”课程中都有涉及,也是教学中的一个重点和难点。在教学实践中,一般采用定义数学方程、矩阵等讲授,但涉及数学知识点多,理论讲解相对费时,如果学生数学基础不扎实,那么对这部分的内容理解起来就相对吃力。通过引入文氏图,可有助于这部分内容讲解和学生的理解。

综上,减税理论对制造业企业的意义不是简单地回答能不能减税的问题,而在于如何减税、如何调整制造业的税制结构,实现税与税之间的协调、企业所得税内部的级次与级距的合理配置问题。从某种意义上说,减税理论有助于我们全面理解当前我国制造业企业所面临的困境及其转型升级的重要意义。

文氏图属于集合论数学分支,用于展示不同集合(群组)之间的数学或逻辑关系,常被用于集合(类)运算。一般用矩形框表示论域,矩形框的内部区域即论域范围,可视为全集,即所有可能事物的空间。单个集合用圆或椭圆表示,若两个圆或椭圆相交,相交部分则是两个集合所包含的公共元素;若两个圆或椭圆不相交,则表明两集合无公共元素。需要说明的是,文氏图与其它的图示法一样,它不能准确表示一个集合(或类)中到底有哪些元素。下图为集合A, B的文氏图。

图1 集合A, B的文氏图

一、文氏图在“多重共线性”定义及分类讲解时的应用

变量λ1x1+λ2x2+…+λkxk=0之间共线性的情形有三种,分别是完全共线性、不完全多重共线性和无多重共线性。

竹编的起源最早可以追溯到新石器时代,最早的竹编制品至今已经有5 000年的历史了。在原始社会,人们所收获的米粟和猎取的食物有了剩余,就发明了编织和制陶使食物得以保存,并砍来竹子、藤条,编成篮、筐和其他物件,用以盛放食物。经过多次的尝试,人们发现竹子相对于其他植物,具有更好的劈篾性能,且富有弹性和韧性,坚固耐用,是用来编织的良好选择,于是便成为人们编织器皿的主要材料。

(一)基于数学理论的多重共线性定义及分类

1.完全共线性

变量间存在完全共线性,即对于变量x1,x2,…,xk,如果存在不全为零的常数λ1,λ2,…,λk,使得下式成立:

这就要求小学数学课堂提问应选择让学生通过观察、思考、合作探究才能解决的具有启发性的问题,并加以运用,在学习“方向”时我们不能简单地教给学生早晨起来面向太阳前面是东,后面是西,左面是北,右面是南,老师要启发学生进行思考,在学生了解了东南西北四个方向的情况下,能够让学生灵活地运用,老师可以提问:你们知道自己家在学校的哪个方向吗?你们知道咱们学校的大门是朝哪个方向的?你们知道自己的东南西北方向各坐着哪名同学吗?这些问题可以启发学生进行思考,更好地掌握这一知识要点,灵活地运用于生活之中,学生学习不是为了做题,而是为了更好地在生活中使用。

则称解释变量x1,x2,…,xk之间存在完全共线性。

遗憾的是,批玄风雷声大而振儒学雨点小,到了南朝,世家大族多祖尚清淡,好宴游,“故士大夫子弟,皆以博涉为贵,不肯专儒”[11](P1539);即使经学名家,“虽好经术,亦以才博擅名”[11](P177)。显然,这里的“博涉”与“专儒”、“才博”与“经术”两两对言,前者皆当首推善谈玄与精通三玄之学。

2.不完全共线性

为完整体现文氏图在线性回归模型多重共线性分析方面的应用,下面结合一个具体的案例来说明。

2.不完全共线性

3.无多重共线性

最后,国外的品牌带来竞争威胁。纵然有“国产保护月”一类的保护政策,但我国影视等娱乐文化企业在艺术表达形式、技术水平、营销方式等方面仍与国外企业很大差距。因此对于未来世界全球化、多元化我们要准备好接受来自国外品牌的竞争威胁。

无多重共线性是指解释变量x1,x2,…,xk之间,既不满足式(1),也不满足式(2)的情形。矩阵x为满秩矩阵,即rank(X)=k+1。应该注意到,解释变量x1,x2,…,xk之间不存在线性相关,并不说明不存在非线性相关。由于各解释变量x1,x2,…,xk之间往往在时间上存在同向变动趋势,且存在不同程度关联度,无多重共线性情形一般很少。

(二)基于文氏图的多重共线性定义及分类——以二元线性回归模型为例

基于文氏图的多重共线性可分三种情形:无多重共线性、不完全共线性及完全共线性,如图2所示。

3.无多重共线性

假设线性回归模型有两个解释变量x1,x2,各自代表相应变量信息。若存在常数λ1,λ2,满足λ1x1+λ2x2=0,即解释变量x1,x2之间存在完全共线性。用文氏图可表示为如图2(c),说明变量x1反映的信息和x2反映的信息,虽然形式不同,但两者信息是完全重复的。

则称解释变量x1,x2,…,xk之间存在不完全共线性,其中μ为随机误差项。与完全共线性不同的是,不完全共线性反映出变量间是近似线性关系,而非函数关系。因而,不完全共线性也称近似的多重共线性,实际经济问题的大多数情况呈现这种情形。

总之,新时代我国社会主要矛盾的“变”与“不变”是辩证统一的,“变”是社会主义初级阶段“质不变”中的“量的积累”,是对社会主义初级阶段“肯定”中包含着“否定”的理解。新时代矛盾的转化既是改革开放40年来中国特色社会主义建设取得历史性成就的结果,也是未来推动社会主义现代化强国建设的根本动力。我们要紧紧立足和依托新时代新阶段的矛盾定位、国情定位和世界定位,既要注重社会主义初级阶段路线方针政策的连续性和稳定性,不急于求成、盲目跨越,又要从关系全局的历史性变化出发,以创新性思维解决不平衡不充分发展的问题,推动社会矛盾向更高层次转化和飞跃,从而达到社会有机体更高层次的动态平衡。

的方差、置信区间伴随x1,x2共线性程度增加而增加,同时t检验失效、预测精度降低、回归模型缺乏稳定性等影响。因此,在进行模型回归前,一般要进行多重共线性的检验,主要检验方法包括相关系数检验、F-G检验、特征值检验、方差膨胀因子(VIF)检验等。

1.完全共线性

作为Lumix系列相机的全新旗舰,这台无反相机使用了一块4700万像素的全画幅传感器,机内防抖系统以及60fps的4K视频拍摄能力,XQD+SD双储存卡的设置则保证了数据储存的安全性。S1R是松下与适马以及徕卡结成联盟(详见右页)之后发布的第一款产品,使用的镜头卡口为徕卡L卡口。

假设线性回归模型有两个解释变量x1,x2,各自代表相应变量信息。若既不存在常数λ1,λ2,满足λ1x1+λ2x2=0,也不满足λ1x1+λ2x2+μ=0,这时解释变量x1,x2之间不存在共线性。用文氏图可表示为如图2(a)情形,说明变量x1反映的信息和x2反映的信息,无交集,即解释变量x1,x2之间线性相关系数为零,各自提供的信息无重合部分。

图2 共线性分类的文氏图表示

二、文氏图在讲解多重共线性检验时的应用

多元线性回归模型中,如果解释变量间存在多重共线性,但仍采用OLS方法估计模型参数,一般将产生较为严重的后果。以二元线性回归模型为例,在完全共线性情形下,参数估计量将不存在,表现在参数估计量 和 为不定式,且方差为无穷大;而在不完全共线性的情形下,则呈现出参数估计量 和

假设线性回归模型有两个解释变量x1,x2,各自代表相应变量信息。若存在常数λ1,λ2,满足λ1x1+λ2x2+μ=0,即解释变量x1,x2之间存在不完全共线性。用文氏图可表示为如图2(b)情形,说明变量x1反映的信息和x2反映的信息,虽然形式不同,但两者信息部分是重复的。变量间相关程度越大,图形中x1,x2重复的部分越多。

在实际应用中,往往考虑如下方法研判:R2或其修正值很高(F值也相应高),但某些解释变量系数的t值却不显著或偏低。这时,我们就可初步判断解释变量x1,x2,…,xk之间可能存在多重共线性。这种结果看似矛盾,其实不然。F检验表明因变量与解释变量之间的线性关系是显著的,即因变量和解释变量中的一个变量间的线性关系显著,并不代表和每个解释变量之间的线性关系都显著。为了便于理解,可借助文氏图3表示。

图3 多重共线性检验的文氏图表示

上图中,X1、X2、X3分别表示多元线性回归模型中三个解释变量对因变量的解释贡献度,F检验值可理解为X1、X2、X3三个集合形成的面积。由于共线性的存在,导致无法区分X1、X2、X3对因变量的具体解释贡献度,尽管单独对每个解释变量回归,系数呈现显著性。某些解释变量的贡献度和另一些解释变量的贡献度相互重叠了。借助文氏图,对于讲授这个知识点,学生更容易理解。

三、文氏图在线性回归模型多重共线性分析的例题应用

变量间存在不完全共线性,即对于变量x1,x2,…,xk,如果存在不全为零的常数λ1,λ2,…,λk,使得下式成立:

例:根据理论和经验分析,影响国内旅游市场收入Y的主要因素,除了国内旅游人数和旅游支出之外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人均旅游支出X2,农村居民人均旅游支出X3,并以公路里程X4和铁路里程X5作为相关基础设施的代表。统计数据如下表1所示。要求建立国内旅游市场收入的多元线性回归预测模型,并检测共线性情况。

分析本例题模型中的变量,公路里程(X4)和铁路里程(X5)两个变量反映的信息应有重叠,而国内旅游人数(X1)、城镇居民人均旅游支出(X2)、农村居民人均旅游支出(X3)等三个变量反映的信息应有重叠(通过相关系数矩阵也可得出),考虑模型中解释变量间可能存在共线性问题。模型中解释变量及随机误差项反映信息用图4文氏图表示。

本例以SPSS作为数据处理软件,采用逐步回归法解决多重共线性问题,实操步骤描述如下。

表1 1994-2003年中国旅游收入及相关数据

注: 资料来源为《中国统计年鉴》2004

铁路里程X5(万千米)1994 1023.5 52400 414.7 54.9 111.78 5.90 1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30年份 全国旅游收入Y(亿元)国内旅游人数X1(万人/次)城镇居民人均旅游支出X2(元)农村居民人均旅游支出X3(元)公路里程X4(万千米)

图4 解释变量及随机误差项反映信息的图示

Step1:输入数据;依次选择“分析(A)”→“回归(R)”→“线性(L)”进入线性回归对话框。在“线性回归”对话框中,将左侧框内的“Y”“X1”“X2”“X3”“X4”“X5”分别移入右侧“因变量(D)”和“自变量(I)”框内,对话框界面同前例。并在“方法”下选择“逐步”。

HPLC法同时测定桑白皮中6种活性成分的含量…………………………………………………… 陈志永等(7):911

Step2:点击“选项”,并在“步进方法标准”下选择“使用F的概率”,并输入增加变量所要求的的显著性水平(默认值为0.05);在“删除”框中输入剔除变量所要求的显著性水平(默认值为0.10)。点击“继续”回到主对话框。

Step3:点击“确定”。得到部分结果如表2、3。

表2 输入/移去的变量

注:因变量为y

模型输入的变量移去的变量 方 法1 x2步进(准则: F-to-enter 的概率<= .050,F-to-remove 的概率 >=.100)。2 x4步进(准则: F-to-enter 的概率<= .050,F-to-remove 的概率 >=.100)。步进(准则: F-to-enter 的概率<= .050,F-to-remove 的概率 >=.100)。3 x3

表3 系数

注:因变量为y

模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间B 标准 误差 试用版 下限 上限1 (常量) -2933.704 421.636 -6.958 .000 -3905.998 -1961.411 x2 9.052 .688 .978 13.160 .000 7.466 10.638 2(常量) -3059.972 321.491 -9.518 .000 -3820.178 -2299.767 x2 6.737 1.014 .728 6.645 .000 4.339 9.134 x4 10.908 4.103 .291 2.658 .033 1.206 20.610(常量) -2441.161 296.039 -8.246 .000 -3165.542 -1716.780 x2 4.216 1.069 .455 3.945 .008 1.601 6.831 x4 13.629 2.904 .364 4.693 .003 6.523 20.735 x3 3.222 1.050 .243 3.068 .022 .652 5.792 3

上表给出了参数的估计值和用于检验的t统计量和p值。由此得到回归模型:

从结果可以看出,首先被选入的变量是城镇居民人均旅游支出(X2),后依次选入的变量是公路里程(X4)和农村居民人均旅游支出(X3),即在消除共线性的情形下,剔除了变量X1和X5。从经济意义解释,就是公路里程(X4)信息更多涵盖铁路里程(X5),城镇居民人均旅游支出(X2)和农村居民人均旅游支出(X3)反映的信息更多涵盖国内旅游人数(X1),用文氏图可表示为图5。

亲爱的牦哥,你在信中对不辞而别的忏悔,我能理解。是的,你当时如果不逃跑,也许我不会受如此多的苦难。要说磨难,和你说七七四十九天也说不完。过去的事不提了。

图5 回归模型变量间文氏图

四、结束语

通过上文分析,可以看到文氏图在多重共线性内容讲授时的优点,主要体现在多重共线性定义及分类、共线性检验及回归结果分析上。通过借助文氏图,可有效提高教师的教学效果和学生对此内容的理解掌握。

参考文献:

[1] 孙敬水.计量经济学[M] .北京:清华大学出版社,2018:56-61.

[2] 贾俊平等.统计学[M] .北京:中国人民大学出版社,2015:285-288.

[3] 张晓峒. Eviews使用指南与案例[M] .北京:机械工业出版社, 2012:102-107.

[4] 孙敬水.计量经济学学习指导与Eviews 应用指南[M] .北京:清华大学出版社,2018:78-82.

[5] 马慧慧等.Stata统计分析与应用[M] .北京:电子工业出版社,2016:212-219.

[6] 胡卫中. 应用统计实验[M] .杭州:浙江大学出版社,2014:66-72.

[7] 冯叔民, 屈超.全程互动统计学及其实验[M] .大连:东北财经大学出版社, 2015:88-93.

[8] 吴培乐. 经济管理数据分析实验教程[M] .北京:科学出版社, 2014:216-222.

Application of Venn Diagram in the Teaching of Metrology and Statistics Courses——A Case Study of Multi-collinearity

CHEN Jun
(School of Business, Xinjiang Normal University, Urumqi Xinjiang 830017)

Abstract: Venn diagram belongs to the branch of set theory mathematics, which is used to show the mathematical or logical relations between different sets (groups), and is often used for set (class) operations.Venn diagram is simple and easy to understand, and it is widely used in the courses of metrology and statistics.The content of multi-collinearity is involved in the courses of Statistics and Econometrics, and it is also a key and difficult point in teaching. In teaching practice, the definition of mathematical equations and matrices are generally used to teach, and the teaching effect of teachers and students' understanding and mastery of this content can be effectively improved by means of Venn diagram.

Key words: Venn diagram; multi-collinearity; teaching application

中图分类号:O211.4

文献标识码:A

文章编号:1671-9654(2019)02-0028-04

DOI:10.13829/j.cnki.issn.1671-9654.2019.02.009

收稿日期:2019-04-08

作者简介:陈军(1973- ),男,新疆乌鲁木齐人,副教授,管理学博士,研究方向为统计学及计量经济学。

基金项目:本文为2017年新疆师范大学教学研究与改革项目“经管类专业统计学实验课程标准化建设研究”(编号:SDJG2017-26)阶段性研究成果。

[编校:张芙蓉]

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

陈军:文氏图在计量统计类课程教学中的应用——以多重共线性内容为例论文
下载Doc文档

猜你喜欢