张明亮:统计学中几个容易混淆的问题论文

张明亮:统计学中几个容易混淆的问题论文

【学法指导】

摘要:统计学是一门重要的学科,在日常生活中有着极其广泛的应用。本文对统计学教学中几个容易混淆的问题进行阐明,旨在帮助学生对统计学中的一些概念有个正确的理解。

关键词:统计学;直方图;总体;相关系数

统计学是一套处理和分析数据的方法和技术,是一门数据分析的学科。统计学作为一门基础课程,越来越受到人们的重视,呈现着新的发展趋势及活力。但是,学生往往对一些概念产生模糊认识,甚至一些教科书中,也出现对一些概念表述不清的情况,这里就学生在学习中容易产生混淆的几个问题进行阐述,旨在帮助学生对一些概念有一个正确的理解。

一、直方图与条形图

直方图是统计学中对数据描述的一个图形,在高中教材中也有介绍,但有一部分学生对这个概念理解不清。曾对学习统计学一年以后的大三学生做过一项统计学方面的调查,班级共有68名学生,有36名学生对直方图与条形图不能很好地区分开来,约占53%。有的学生把二者混为一谈,对于二者的应用范围分不清楚。条形图是用宽度相同的条形的高来表示数据多少的图形,每一矩形表示一个类别,其宽度没有实际意义,每个小矩形不相连。条形图有单式条形图和复式条形图之分,它一般适应于品质数据。

直方图是用于展示定量数据分布的一种常用图形,它是用矩形的宽度和高度来表示频数的分布,矩形的宽度表示分组数据的组距,由于分组数据具有连续性,所以每个矩形是相连的,通过直方图可以观察数据分布的大致情况。一般用每个小区间内的频率比上组距来表示小矩形的高度,这样做是为了使得直方图围成的面积为1,因为一维连续型随机变量的概率密度函数与x轴围成的面积为1,通过对直方图的折线近似拟合,观察这条折线与已知分布的哪个概率密度函数拟合得比较好,可得出这组数据的大致分布。

绘本教学的“1+N”模式主要分为两部分,第一部分是“1”,是指依托绘本本身进行的一个阅读教学活动,主要是运用多种策略和方法进行阅读,理解绘本内容。第二部分是“N”,即绘本拓展教学,是指在阅读绘本教学的基础上,根据绘本的教育价值、内容线索、画面特点等拓展成其他领域的教学活动,其中有两个关键点:首先要在拓展教学中充分再现读本的内容;其次,拓展出来的新领域要突出领域的教育特点与要求。

但是,在有的教材中,往往把直方图的高这一数据标错,给学生理解带来困难。右图为某公司电脑销售额分布的直方图,从图中可以看出,纵坐标标出的高度都不是频率与组距的比,直方图围成的面积自然也不能保证是1。

二、对总体的理解

回归分析是数理统计中的一个重要概念,它是刻画一个变量或者一些变量对一个特定变量是否有影响,影响程度如何,如果有影响,怎样把这种关系用一个函数式子近似地描述出来,即建立回归方程。对于一元线性回归模型Y=β0+β1x+ε,这里β0,β1为未知参数,并假设随机误差ε要服从正态分布,E(ε)=0,D(ε)=σ2。即进行n次独立观察,得到样本(xi,yi)(i=1,2,…,n),这里x1,x2,…,xn不全相同,有

三、方差与标准差的单位

随机变量X、Y的相关系数一般用rXY(简记为r)或ρXY表示,定义为,这里随机变量X、Y协方差存在,它们的方差存在且不为零。它具有性质的充分必要条件是:存在常数a,b,使得P{Y=aX+b}=1。

当rXY=1时,称随机变量X与Y正相关;当rXY=-1时,称随机变量X与Y负相关;当rXY=0时,称随机变量X与Y不相关。说明相关系数定量地刻画了随机变量X、Y的线性相关程度,这里需注意的是:相关系数为零,只能说明随机变量X与Y不具有线性相关关系,未必没有关系;相关系数为1,也只能说明随机变量X与Y之间以概率1存在着线性关系,直观来说,就是几乎所有的点(X、Y)都在直线Y=aX+b上,允许个别点不在这条直线上,不在这条直线上的点的概率应为0,但不能说二者具有函数关系。在有些教材中,把=1与二者具有函数关系等同起来,此教材这样描述相关系数:“可以证明,相关系数的取值范围在+1和-1之间,即-1<r<1。若0<r<1,表明x与y之间存在正线性相关关系;若-1<r<0,表明x与y之间存在负线性相关关系;若r=+1,表明x与y之间为完全正线性相关关系;若r=-1,表明x与y之间为完全负线性相关关系。可见当=1时,y的取值完全依赖于x,二者之间即为函数关系;……”

可数和无穷多是两个不同的概念。可数可以简单地认为是可以按一定顺序排列出来,所以也称为可列。如所有自然数{0,1,2,3,…}是可数个,只要能与自然数一一对应就是可数的,如所有奇数、所有偶数、所有有理数都是可数的。不可数就是没有办法一一排列出来,如区间[0,1]内的所有实数就是不可数的。

这里方差与标准差的单位都写成了“元”,这是一个明显的错误。

四、无限与不可数

根据式(4.11)得标准差为(元)。

1) 该项目使用的黑水角阀在开车3个月后即出现阀体被穿孔现象,由于气化炉及洗涤塔底部排出的黑水中含有大量固体颗粒,装置运行中,固体质量分数较高的黑水在高速流动中对黑水角阀阀芯阀座形成冲刷腐蚀造成破坏。通过初步分析,黑水流动状态为阻塞流,由于阀后压力远小于阀前的饱和蒸汽压,阀后存在严重气蚀现象。介质在阀腔拐点和出口缩径处流速极高,黑水中的硬质悬浮固体颗粒对阀腔造成严重的冲蚀破坏。出口法兰与管道筒体连接处内壁厚度不均匀,而该结构在铸造时很容易引起厚度突变,容易产生砂眼和裂纹等缺陷,在该恶劣的工况下,阀体容易出现穿孔。

五、相关系数及其含义

随机变量X的方差用D(X)或Var(X)表示,若E[X-E(X)]2存在,则D(X)=E[X-E(X)]2称为随机变量X的方差。它刻画了随机变量X的取值与其数学期望E(X)的偏离程度,若方差较小,意味着随机变量X的取值比较集中在E(X)附近,反之,说明随机变量X取值比较分散。方差的开平方称为标准差或均方差。方差和标准差是否有单位,应该怎样定义单位呢?关于这个问题有很多人认识不清,方差和标准差是否有单位,取决于“样本数据”,若“样本数据”有单位,那么方差和标准差均有单位;若“样本数据”是没有单位的数值,那么方差和标准差均没有单位。由方差的定义知,一个随机变量X的方差,是这个随机变量与它的数学期望的差的平方的数学期望,若这个随机变量X有单位,它的数学期望就与这个随机变量具有相同的单位,二者差的平方的单位应该是原单位的平方,再求数学期望则单位不变,因此,方差的单位应该是“样本数据”单位的平方,而标准差是由方差开方得到,所以标准差的单位与“样本数据”的单位相同。如果数据的单位是千克,方差的单位就是千克的平方,标准差的单位就是千克;如果数据的单位是秒,方差的单位就是秒的平方,标准差的单位就是秒。只是现在教科书中对方差的单位比较淡化,一般考试中,所求的方差不要求写单位。但是,在有的教材中仍会出现单位标注错误。有本教材给出的例题是这样的:

例:根据例4.1的数据,计算9名员工月工资收入的方差和标准差。

六、一元线性回归模型

总体是指研究的对象的全体或试验的全部可能的观察值。由此可见,总体是指研究对象,一般是一些具体的数值。如,要考察一个班级《统计学》期末的考试成绩,不能把这个班的学生看作总体,而应是每个学生的《统计学》成绩组成的集合为总体,因为这里考察的仅仅是《统计学》的成绩,而不是其他学科的成绩。有的学生对总体理解不到位,甚至一些教材上也犯有同样的错误。

本研究中,3种合成麝香在经过水厂A和B的常规水处理工艺处理后,最终的去除率均在60%以上。在水厂A和B中,HHCB、AHTN、MK的去除率均分别约为70%、80%和100%。无论是水厂A还是水厂B,3种合成麝香在经过混凝处理之后,其浓度均呈急剧降低;而在后期的沉淀及过滤处理过程中,合成麝香浓度呈现平稳下降的势态。由此可见,混凝对合成麝香的去除起着重要的作用,而沉淀与过滤则进一步加强了去除效果。

这里的εi要求是独立同分布。但在一些教科书中,它只强调回归方程,对回归模型所要满足的条件只字不提,如“对于只涉及一个自变量的一元线性回归模型课表示为:y=β0+β1x+ε,在一元线性回归模型中,y是x的线性函数(β0+β1x部分)加上误差项ε。β0+β1x反映了由于x的变化而引起的y的线性变化;ε是被称为误差项的随机变量,它反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能有x和y之间的线性关系所解释的变异性,式中的β0和β1称为模型的参数”。

2)给排水控制系统构建与应用过程中,若能重视PLC使用,则有利于提升该系统的智能化控制水平,还可以避免给排水管线布置出现过于复杂的现象;

总之,有些概念在一些教科书中介绍不清,老师在讲授时又不够重视,使得学生对这些概念不能很好地掌握,这是造成学生错误的根本原因,值得重视。

参考文献:

[1]贾俊平.统计学基础[M].第3版.北京:中国人民大学出版社,2013.

[2]盛骤,谢式千,潘承毅.概率论与数理统计[M].第4版.北京:高等教育出版社,2011.

Several Problems that are Easily Confused in Statistics

ZHANG Ming-liang
(Minsheng College,Henan University,Kaifeng,Henan 475004,China)

Abstract:Statistics is an important subject and has a wide range of applications in daily life.This article clarifies several confusing issues in statistics teaching to help students have a correct understanding of some of the concepts in statistics.

Key words:statistics;histogram;population;correlation coefficient

中图分类号:C81

文献标志码:A

文章编号:1674-9324(2019)24-0188-02

收稿日期:2018-11-24

基金项目:本文系河南大学民生学院教育教学改革研究项目“统计学课程教学改革与实践探究”(项目编号:MSJG2014018)研究成果

作者简介:张明亮,教授,硕士生导师,研究方向为概率统计、数学教育。

标签:;  ;  ;  ;  ;  ;  ;  ;  

张明亮:统计学中几个容易混淆的问题论文
下载Doc文档

猜你喜欢