摘 要:《统计学》是目前很多高校非统计学专业开设的主要专业基础课之一,而《计量经济学》是多数经济类专业的核心课程。这两门课程在内容上有交叉,同时《计量经济学》课程内容多,讲授难度较大,课时数相对紧张。作为先修课程的《统计学》,如能在两门课程交叉内容部分做好知识点设计、合理分配学时和配合必要实验操作,无疑对于《计量经济学》的教学可以打下良好的基础,提高教学效果,同时又提供了宝贵的授课课时。本文以线性回归模型作为课程交叉内容进行分析探讨。
关键词:课程衔接;统计学;计量经济学
一、问题的提出
《统计学》是目前很多高校非统计学专业开设的主要专业基础课之一,而《计量经济学》是多数经济类专业的核心课程。将《计量经济学》列入经济学各专业核心课程,是我国经济学学科走向现代化和科学化的重要标志,对于提高我国经济学人才培养质量和研究水平均具有重要意义。
就本科段《计量经济学》课程内容体系来说,主要包括一元线性回归模型、多元线性回归模型、异方差性、自相关性、多重共线性、虚拟变量与随机解释变量、滞后变量模型、时间序列分析、联立方程模型、面板数据模型等。国内教材编写基本围绕此内容体系,但会根据专业侧重、学时,在具体内容选取上所有取舍。而本科段非统计学专业《统计学》课程内容体系则主要包括数据的收集、数据的图表展示、数据的概括性度量、概率与概率分布、统计量及其抽样分布、参数估计、假设检验、分类数据分析、方差分析、一元线性回归、多元线性回归、时间序列分析和预测、指数等。
《统计学》是《计量经济学》的先修课程之一。目前大多数高校经济类专业《计量经济学》学时一般在72学时左右(按18个教学周计算),主要包括理论教学和软件实际操作环节。从教学实践看,虽然学时数相对其他课程已不算少,但授课老师普遍反映这门课程内容较多,课时数依然紧张,同时讲授难度较大,学生学习起来感觉吃力。
考虑到这两门课程在内容上有交叉,作为先修课程的《统计学》,如能在两门课程交叉内容部分做好知识点设计、合理分配学时和配合必要实验操作,无疑对于《计量经济学》的教学可以打下良好的基础,便于提高教学效果,同时又提供了宝贵的授课课时。基于此,本文以线性回归模型作为课程交叉内容进行分析探讨。
二、“一元线性回归”知识点的确定
回归分析是统计学的重要内容,也是计量经济学的方法论基础。计量经济学在对经济现象建立经济计量模型时,大量地运用回归分析这一统计方法。在对经济变量之间的数量关系进行分析时常用的方法有回归分析、相关分析、方差分析等,但应用最广泛的是回归分析方法。其中,一元线性回归又是最简单基础的。作为统计学与计量经济学交叉内容,结合两门课程内容体系,确定统计学教学中涉及到的知识点如下。
(一)变量间的关系
1、变量间的关系。从统计角度来看,变量间关系可分为函数关系和相关关系。函数关系以前已讲授过,重点是相关关系。影响一个变量的因素有多个,故而造成变量间关系的不确定性。
2、相关关系的描述和度量。描述相关关系的最常用工具是散点图,特别是针对两个变量间的情形。如果要准确度量变量间的关系强度,则需要计算相关系数。
3、相关系数的计算。选取Pearson相关系数,需要注意的是,相关系数只能用于线性关系度量,不能用于非线性关系。
5、方差齐性检验及正态性检验。
5、相关系数的检验。一般采用t分布检验,该检验既可用于小样本,也可用于大样本。
(二)一元线性回归模型的估计和检验
1、回归模型、回归方程概念。
2、随机误差项的性质。随机误差项包含丰富的内容,从某种程度上说,回归分析很多内容就是围绕随机误差项展开的。无论是一元线性回归模型、多元线性回归模型以及其他单方程模型,还是联立方程模型,都含有随机误差项。
5、估计标准误差。讲授要求同参数的最小二乘估计知识点。
4、参数的最小二乘估计。这个知识点需讲授清楚最小二乘估计的基本思想。
共和县处于藏区,人们的饮食习惯主要是面食、青稞炒面以及肉类为主,对于蔬菜的需求量不是太大。2017年,共和县蔬菜产量分布如下:
5、模型的拟合优度。这是衡量回归方程优劣的重要指标,评价拟合优度的一个重要统计量就是决定系数。围绕变差分解图,厘清总平方和、回归平方和、残差平方和的定义和三者之间的关系,理解决定系数的经济实际意义。
6、估计标准误差。这个概念非常重要,在预测方面有着广泛的应用。估计标准误差是残差平方和的均方根,要理解其实际意义。
基于天然先导化合物的结构优化是创制新农药的重要途径[1]。以天然杀菌活性成分大蒜素为先导化合物,中国开发出了农用杀菌剂乙酸素[2];以高等真菌代谢的杀菌化合物Ibotenic acid为先导化合物,开发出了杀菌剂恶霉灵[3];Shell公司开发的烯酰吗啉和中国沈阳化工研究院有限公司开发的氟吗啉则是基于肉桂酸化学结构而开发的杀菌剂[4-6];近年来,农用杀菌剂市场占有重要地位的甲氧基丙烯酸酯类杀菌剂,其先导化合物是从高等真菌中分离的化合物Strobilurins,因此这类杀菌剂也被称为Strobilurins 杀菌剂[7,8]。
(三)利用回归方程进行预测
1、求解多元线性回归方程。
(四)用残差检验模型的假定
此部分内容包含方差齐性检验和正态性检验。在一元线性回归模型中,假定随机误差项是期望值为0、方差相等且服从正态分布的一个独立随机变量。确定随机误差项的假定是否成立的方法之一就是进行残差分析。
三、“多元线性回归”知识点的确定
现实经济现象是复杂的,每一个变量都要受到其他多个变量的影响。如果其他解释变量对被解释变量的影响不能忽略,就要用多元回归模型表示。多元线性回归模型是一元线性回归模型的推广。同前文类似,确定统计学教学中涉及到的知识点如下。
(一)多元线性回归模型
1、多元回归模型及其矩阵表示。
2、多元线性回归模型的基本假定。相较一元线性回归模型,多出一个解释变量之间不存在多重共线性的假定。其他对照一元线性回归模型内容,基本接近,但涉及相关数学内容很多,建议讲授清楚原理即可。
3、参数的最小二乘估计。讲授要求同上一知识点。
4、模型的拟合优度。重点是多重决定系数,难点是调整后多重决定系数的理解。
3、一元线性回归模型的基本假定。这个知识点非常重要,模型估计就是要得到所估计模型的参数,最常选用普通最小二乘法(OLS)。如果模型满足应用普通最小二乘法的基本假定,则可应用此法求得参数;如果模型不满足应用要求的基本假定,则不能直接应用普通最小二乘法,否则会出现参数偏误。随机误差项基本假定包括零均值假定、同方差性假定、无自相关性假定、解释变量与随机误差项不相关假定、正态性假定。应该注意,如只进行参数估计,不需要误差项服从正态分布,但如要进行假设检验和预测,则须满足。
6、回归分析的显著性检验。讲授要求同上一知识点。
(三)多重共线性及其处理
当回归模型中涉及到两个或两个以上解释变量时,往往会出现解释变量间多重共线性的问题。相较异方差、自相关性不满足基本假定的情形,多重共线性的存在将导致回归结果出现混乱等严重问题,必须进行处理。这部分内容具体涉及以下知识点。
3、求解一元线性回归方程。
1、多重共线性所产生的问题。
美国心理学家特瑞斯曼教授指出:“不专注时,人们只能对事物的个别特征进行初步加工;而在专注的情况下,则能精细加工,并将其整合为一个整体。也就是说,只有在专注的情况下,我们才能成功地完成手上的任务。”
2、多重共线性的识别和处理。关于识别方法较多,只需介绍几种即可,如对模型中各对自变量之间的相关系数进行显著性检验,各回归系数的显著性、各回归系数的符号与理论预期的一致性、方差膨胀因子检验等。
王志荣:“补好一堂课”,体现的是“基本能力”建设的核心内容。换句话说,叫做“基本能力建设,从补课开始”。“一堂课”是个形象说法,“一堂课”“补”得怎么样,功夫在课下的精心准备。那么,要补什么样的课呢?目标是要补有效果之课。
3、变量选择。变量选择方法主要介绍向前选择、向后剔除和逐步回归。
例如:人教版实验4-5干燥的氯气能否漂白物质的实验,探讨次氯酸的漂白性与二氧化硫漂白性的区别,可把这些实验过程中的现象进行录像,制作成微课.使用微课视频教学,学生可以直观观察演示操作,掌握操作技能,而且实验现象清晰可见,形象生动,便于学生理解记忆,而且上课不管哪个位置的学生都能仔细观察实验过程.
(2)CDFU在应用过程中体现了很好的抗冲击能力,在试验来水水质波动较大(ρ(油)为15.0~61.0 mg/L,ρ(悬浮物)为20.3~46.5 mg/L)的情况下,出水水质满足两级精细过滤器进水要求(ρ(油)≤30 mg/L,ρ(悬浮物)≤30 mg/L),有效保证了过滤器使用寿命及处理效果。
(四)利用回归方程进行预测
此部分内容相较一元线性回归模型,无论是平均值置信区间,还是个别值预测区间,计算公式都复杂许多,建议直接利用软件得出结果。
四、线性回归模型软件实操内容
上文中就一元线性回归及多元线性回归章节理论知识点进行了分析罗列,在教学实践中,理论讲授和软件实际操作往往结合在一起进行。在具备机房上课的学校,可根据教学情况灵活掌握,一般采用“边将边练”方式,即教师讲解完相应知识点,涉及到实操内容的可先演示一遍,然后让学生自行操作一遍。这种理实一体化模式,对于学生理解和掌握知识点非常有帮助。下面就涉及到的实操内容做如下介绍。
5月中旬,红四军入闽途经大柏地时,毛泽东没有忘记大柏地战斗时的“承诺”,他要求部队组织一个小分队,负责召集群众大会,偿还当时借用的粮食和其他财物。毛泽东在会上还作了热情洋溢的讲话,他告诉大柏地的群众,红军是老百姓的队伍,号召群众团结起来,打土豪分田地。群众纷纷称赞红军队伍,红军是替老百姓打天下的消息迅速传播开来,当时就有十多个青年报名加入红军。自此,红四军在赣南就开始拥有了坚强的群众基础。
(一)一元线性回归模型
1、计算相关系数。
7、回归分析的显著性检验。此知识点包括线性关系检验(F检验)和回归系数检验(t检验)。
2、相关系数的检验。
图3和图4分别为冶金渣胶凝材料和水泥固铅试样的XRD图谱。其中A0和B0分别代表未掺入含铅溶液的试样。
4、利用软件得到平均值的置信区间和个别值的预测区间。
4、相关系数的性质。
(二)多元线性回归模型
此部分内容包含平均值的置信区间和个别值的预测区间两种。平均值的点估计实际上是对总体参数的估计,而个别值的点估计则是对因变量的某个具体取值的估计。平均值的点估计是利用估计的回归方程,对于x的一个特定值xf,求出yf的平均值的一个估计值Ey( )f;个别值的点估计则是求出yf的一个个别值的估计值yˆf。由于抽样波动的存在,还有包括随机项µt的零均值假定不完全与实际相符,因此,点预测值yˆf与因变量实际值yf和其均值Ey( )f的估计值存在误差。同时,点估计不能给出估计的精度,我们希望在一定概率下把握这个误差的范围,从而确定yf和Ey( )f可能取值的波动范围,这就是区间预测(估计)。区间预测(估计)又分为两种类型,即置信区间估计(confidence interval estimate)和预测区间估计(prediction interval estimate)。
2、利用逐步回归法选择变量。
在进行实验中发现成渝两地BF+样本还有与对照相比无意义的变化趋势的生物膜信号AI-2,即BF+,AI-2-情况。如图 3。
Lars Jensen表示,“按照目前的情况来看,我们暂时并不能看到事态有升级和扩大的趋势,所以我认为目前没有理由大惊小怪。”
3、利用软件得到平均值的置信区间和个别值的预测区间。
(三)线性回归模型相关实操的综合案例应用(选用SPSS软件)
例:根据理论和经验分析,影响国内旅游市场收入Y的主要因素,除了国内旅游人数和旅游支出之外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人均旅游支出X2,农村居民人均旅游支出X3,并以公路里程X4和铁路里程X5作为相关基础设施的代表。统计数据如下表所示。要求建立国内旅游市场收入的多元线性回归预测模型,并检测共线性情况。
表1:1994-2003年中国旅游收入及相关数据
年份 全国旅游收入Y(亿元)铁路里程X5(万千米)1994 1023.5 52400 414.7 54.9 111.78 5.90 1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30国内旅游人数X1(万人/次)城镇居民人均旅游支出X2(元)农村居民人均旅游支出X2(元)公路里程X4(万千米)
资料来源:《中国统计年鉴》2004.
1、如图所示,输入数据;依次选择“分析()”→“回归(R)”→“线性(L)”进入线性回归对话框。在“线性回归”对话框中,将左侧框内的“y”、“x1”、“x2”、“x3”、“x4”、“x5”分别移入右侧“因变量(D)”和“自变量(I)”框内。
2、单击【统计量()】,依次选择如图所示的复选框:“估计()”、“置信区间”、“协方差矩阵()”、“模型拟合度(M)”、“共线性诊断()”、“Durbin-Watson(U)”。单击【继续】,返回主对话框。
图1:线性回归:统计量对话框
3、单击【绘制(T)】,弹出“线性回归:图”对话框,在变量列表中选择变量“*ZRESID”移入Y选框,将其作为绘图的Y轴变量,选择“*ZPRED”移入X选框,将其作为绘图的X轴变量;选择“标准化残差图”框中的“直方图(H)”和“正态概率图(R)”选项。单击【继续】,返回主对话框。
4、单击【保存(S)】,弹出“线性回归:保存”对话框,在预测值框中选择“未标准化(U)”;在残差框中选择“标准化(A)”;在预测区间框中选择“均值(M)”和“单值(I)”。单击【继续】,返回对话框。
诺亚方舟是《摩西五经》上的传说,是创世故事之一。如果只把它当作文学文本,当作神话来看,这没有问题,但是如果把它当作纯粹的真实的历史那就漏洞百出了。或者说,我们可以用否证它是历史文本的方法来证明它是文学文本。其实,在《圣经》或《摩西五经》中,它与前面和后面的故事都有联系。故事原文就不引了,这里只引有疑点的语句。疑点有这样几个:
5、单击“选项(O)”,在“线性回归:选项”对话框中,默认系统选项。单击【继续】,返回主对话框。
6、单击【确定】,输出结果,如图显示。
表2:模型汇总b
a. 预测变量: (常量), x5, x3, x4, x1, x2。b. 因变量: y
模型 R R方 调整R方 标准 估计的误差 Durbin-Watson 1 .998a .995 .990 100.14332 2.312
结果分析:在模型汇总表中,主要给出了模型的拟合情况和序列相关的DW检验值。从表中可以看出,模型调整R方为0.990,说明拟合程度非常好。2<DW<4,表明相邻两点的残差项负相关。
表3:Anovab
a. 预测变量: (常量), x5, x3, x4, x1, x2。b. 因变量: y
模型 平方和 df 均方 F Sig.回归 8692490.359 5 1738498.072 173.353 .000a残差 40114.741 4 10028.685总计 8732605.100 9 1
在方差分析表中,F检验统计量为173.353,相应的显著性概率为0.000小于0.05显著性水平,因此,应拒绝回归方程显著性F检验的原假设,认为所有自变量综合起来对因变量有显著影响。
加硫除铜时硫加入量一般按照形成CuS时所需的硫计算,另外多加25%~30%,比如说100 t含Cu 0.18%的粗铅,最后除铜所加的硫可按式(2)计算。
在回归系数表中,包括非标准和标准回归系数及其相应的t检验统计量和t检验显著性概率。可以看出,X2、X3、X4的回归系数t检验的显著性概率小于0.05,说明在0.05显著性水平下,X2、X3、X4因素对旅游收入有显著性影响。共线性诊断统计量结果显示,本实验五个自变量中的X1、X2、X4、X5膨胀因子(VIF)均大于10,所以四个自变量同其他自变量之间存在明显的多重共线性。
表4:系数a
a. 因变量 : y
模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 共线性统计量B标准 误差 试用版 下限 上限 容差 VIF(常量) -274.377 1316.690 -.208 .845 -3930.094 3381.339 x1 .013 .013 .148 1.031 .361 -.022 .048 .056 17.872 x2 5.438 1.380 .587 3.940 .017 1.606 9.271 .052 19.354 x3 3.272 .944 .246 3.465 .026 .650 5.893 .227 4.400 x4 12.986 4.178 .347 3.108 .036 1.386 24.586 .092 10.824 x5 -563.108 321.283 -.266 -1.753 .155 -1455.132 328.917 .050 20.059 1
表5:系数相关a
a. 因变量 : y
模型 x5 x3 x4 x1 x2 1 相关性 x5 1.000 -.044 -.179 -.249 -.628 x3 -.044 1.000 .227 -.026 -.493 x4 -.179 .227 1.000 -.692 .050 x1 -.249 -.026 -.692 1.000 -.183 x2 -.628 -.493 .050 -.183 1.000协方差 x5 103222.763 -13.204 -239.964 -1.015 -278.521 x3 -13.204 .892 .896 .000 -.642 x4 -239.964 .896 17.455 -.037 .291 x1 -1.015 .000 -.037 .000 -.003 x2 -278.521 -.642 .291 -.003 1.905
表6:共线性诊断a
a. 因变量 : y
模型 维数 特征值 条件索引方差比例(常量) x1 x2 x3 x4 x5 1 1 5.885 1.000 .00 .00 .00 .00 .00 .00 2.099 7.715 .00 .00 .00 .27 .00 .00 3.013 21.394 .01 .01 .00 .19 .10 .00 4.002 52.878 .02 .00 .46 .54 .27 .00 5.001 80.239 .00 .94 .12 .00 .60 .00 6.000 197.068 .96 .05 .41 .00 .03 1.00
表7:残差统计量a
a. 因变量 : y8
极小值 极大值 均值 标准 偏差 N预测值 975.5199 3825.0625 2539.2000 982.76765 10标准 预测值 -1.591 1.308 .000 1.000 10预测值的标准误差 51.073 91.492 76.363 14.373 10调整的预测值 798.8189 3764.7266 2546.2940 1022.55417 10残差 -110.13665 91.38615 .00000 66.76222 10标准 残差 -1.100 .913 .000 .667 10 Student 化 残差 -1.279 1.106 -.006 1.011 10已删除的残差 -239.48882 224.68108 -7.09403 179.10204 10 Student 化已删除的残差 -1.440 1.150 -.017 1.026 10 Mahal距离 1.441 6.612 4.500 1.865 10 Cook 的距离 .096 .792 .327 .291 10居中杠杆值 .160 .735 .500 .207 10
图2:回归标准化残差的标准P-P图
图3:回归标准化残差直方图
从残差直方图的图形特征可以看出,模型残差不符合正态分布。在残差散点图中,由于残差标准值中大于0的值占到了绝大多数,因此本实验不符合正态性检验,这与直方图的判断结果一致。由于残差标准值的观测点没有明显的变动周期和趋势,所以根据该散点图难以判断独立性假设是否成立。从残差的随机性来看,基本上随机的散布在横轴周围,这说明残差基本符合齐性要求。
五、“一元线性回归”与 “多元线性回归”内容的学时分配
在学时数限制的情形下,“一元线性回归”与 “多元线性回归”知识点学时计划设置为12-13学时(含理论教学和实操环节)。其中,“一元线性回归”6-7学时,“多元线性回归”6学时。相应讲授知识点学时分配如下表。
表8:“一元线性回归”与 “多元线性回归”知识点学时分配表
教学内容 学习知识点 课时安排1.变量间关系;2. 相关关系描述和度量;3.相关系数的检验1学时(理实一体)一元线性回归模型1.一元线性回归模型;2.随机误差项的性质;3.参数的最小二乘估计;4.模型的拟合优度;5.显著性检验3-4学时(理实一体)1.平均值的置信区间;2.个别值的预测区间;3.用残差检验模型的假定2学时(理实一体)1.多元线性回归模型及其矩阵表示;2.多元线性回归模型的基本假定;3. 参数的最小二乘估计;4.估计标准误差2学时(理论教学)1.拟合优度检验;2.显著性检验 2学时(理实一体)1.多元线性回归模型的点预测;2.区间预测多元线性回归模型1学时(理实一体)1.多重共线性及其识别;2.变量选择与逐步回归1学时(理实一体)
当然,授课老师可根据学生基础及掌握情况灵活调整,以期达到理想的教学效果。
(4)炭质板岩具有中低阻中高视极化率特征,是区内典型的找矿干扰体;区分其与矿化体的主要依据是矿化体视极化率比其高,视电阻率比其低,结合异常分布规律可大概区分。
参考文献:
[1]贾俊平,何晓群,金勇进.统计学[M].北京:中国人民大学出版社,2015年1月第6版:99-151.
[2]贾俊平.统计学[M].北京:中国人民大学出版社,2015年5月第7版:53-71.
[3]付志刚等.统计学[M].北京:经济管理出版社,2015年3月第1版:175-194.
[4]李卫东.统计学[M].北京:清华大学出版社,2014年10月第1版:85-123.
[5]李金昌,苏为华. 统计学[M]. 北京:机械工业出版社,2012年1月第3版:91-120.
[6]胡卫中.应用统计实验[M].杭州:浙江大学出版社,2014:66-72.
[7]冯叔民,屈超.全程互动统计学及其实验[M].大连:东北财经大学出版社,2015:88-93.
[8]吴培乐. 经济管理数据分析实验教程[M].北京:科学出版社,2014:216-222.
[9]陈军.经济管理类专业《统计学》实验教程[M].北京:经济管理出版社,2019:203-235.
基金项目:新疆师范大学教学研究与改革项目“经管类专业统计学实验课程标准化建设研究”(SDJG2017-26)
中图分类号:C81
文献标识码:A
文章编号:1674-537X(2019)04.0057-05
标签:线性论文; 模型论文; 变量论文; 统计学论文; 学时论文; 《统计与管理》2019年第4期论文; 新疆师范大学教学研究与改革项目“经管类专业统计学实验课程标准化建设研究”(SDJG2017-26)论文; 新疆师范大学商学院论文;