大数据时代的到来给以数据为主要研究对象的统计学科带来了机遇与挑战,统计学专业人才培养的改革也势在必行。传统统计工作中的数据搜集、数据处理、数据分析、结果展示等各阶段在大数据时代都表现出了新的特征,因此统计学专业人才培养过程中在课程设置、社会实践、考试考察、教师培养等环节都需做出相应的改革,以适应大数据背景下统计学专业人才培养的需要。
结合学生考研后计划从事的研究方向 部分学生会选择考研。毕业论文的时间一般安排在大四第二学期进行,参加硕士招生考试的学生已然知晓成绩和确定录取情况,对未来的研究方向充满期待。因此,专业教师应根据学科研究方向,综合考虑学生的研究兴趣,设计一些与当前水文科学研究热点问题相关的题目,供那些即将读研的学生选择。此举将有助于提前培养科研精神和锻炼科研能力,从而在研究生入学后,能够顺利进入导师科研团队从事科学研究工作。
一、引言
随着信息和网络科技的不断发展,数据正以前所未有的规模和速度发生变革。统计学作为一门以研究数据为主的学科,大数据时代的到来自然与其发展息息相关。统计学专门研究如何搜集、整理、分析和展示数据,并且围绕这几个方面已形成相对成熟的数据研究体系和框架。大数据时代的到来使得数据收集、整理及分析呈现出了一些新的特点,给统计学原有的理论体系、框架结构、思维模式等都带来了前所未有的变革和挑战。
大数据时代是现代生产力水平发展到一定阶段的必然产物,全球各行业逐步进入以海量数据为特征的新阶段,对海量数据的搜集、分析和处理技术,已成为许多领域的新需求。大数据已经给现代零售业、物流管理和电子商务等领域带来了巨大冲击和改变,这也引起了世界范围内对大数据特点和其人才培养模式的探讨。2012年美国发布了《大数据研究与发展倡议》,计划投入2亿美元用于大数据搜集、管理等技术投入。欧盟也准备在FP7的后续项目中增加对大数据相关项目的研究资金投入。日本2014年提出的《大数据时代的人才培养》对大数据的概念、特征及人才培养等展开了系列讨论。2015年,国务院印发的《促进大数据发展行动纲要》明确指出,“鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才”,这标志着我国也逐渐步入大数据建设的新时代,凸显了我国在大数据人才培养方面的迫切性和重要性。大数据是伴随着社交网络、云计算、物联网等兴起而产生,可以用“4V”来刻画其主要特点,即超常的数据规模、复杂的数据结构、高效的数据处理、稀疏的价值密度。通俗地说,大数据就是一切可记录信号的集合。大数据时代,拥有大数据分析能力的统计学人才在电子商务、物流管理、产品研发、市场营销等方面将发挥至关重要的作用。政府和企事业单位对数据分析人才的需求缺口也越来越大,尤其是能对海量大数据开展数据筛选、数据挖掘和数据分析的复合型人才。由于大数据的结构日趋复杂,结构化和半结构化数据占据主流,不管是规模还是结构方面都超越了传统数据分析和经典统计思想范畴,仅靠传统的个别软件和单机分析无法处理。因此,传统的统计学专业人才培养模式无法适应大数据时代所需统计人才的专业技能要求,统计学专业人才培养模式需要作出相应的变革,以适应日益复杂和多元化的大数据行业对统计人才的需求。
可见,大数据时代的来临给统计学专业人才培养带来了难得机遇,同时也相应产生了巨大挑战。一方面,电子技术和通讯互联技术的快速发展,使得数据收集的规模变大、成本降低,数据呈现爆炸式增长,消费大数据、教育大数据、旅行大数据、信用大数据等迅速兴起。大数据为统计提供了更为宽广的舞台和应用潜力,给统计学专业人才培养带来了契机。各大电商平台纷纷建立数据挖掘平台,开展各种数据筛选和统计分析,市场对高端统计人才的需求日益上升。另一方面,大数据使得传统统计面临的挑战也不容小觑,统计学专业人才培养模式需要进行变革。大数据时代统计人员除了要求具备扎实的传统统计理论之外,还需要在数据库操作能力、计算机编程能力、统计计算能力以及数据可视化技术等方面都有所了解。因此,如何在大数据时代对统计学专业人才培养目标和课程教学做出改革以适应时代发展,是统计学专业培养目标、培养过程、实践环节等值得关注的重要问题。
二、大数据时代传统统计面临的挑战
大数据背景下传统的统计学方法存在无法应对之处,在数据采集、数据筛选、数据分析和结果展示等方面都给统计学专业人才培养带来了一定影响。
(一)数据收集来源
传统统计的数据来源包括一手数据和二手数据,不论是自己设计问卷展开调查的一手数据,还是直接调用有关部门的二手数据,相对于当前所谓的大数据来说基本都属于小样本范畴。随着计算机和云技术的不断发展,大数据的采集和处理都出现了新的特征。不同于传统的普通调查,大数据时代的数据搜集方式变为在线互联网数据库的自动采集,移动智能终端、联网传感器节点的设置都给大数据提供了大量的来源渠道。如交通管理部门有道路流量数据,电信部门有每个客户通话记录,民航系统有所有旅客出行信息,电商部门有商务交易数据等,这些都以某种形式存储下来成为大数据的重要来源。因此相应的统计分析从基于样本数据的建模变为借助云计算平台的大数据挖掘,收集、处理、分析海量数据成为今后统计工作的重要环节。大数据时代以云计算、物联网和人工智能等为依托,所有海量数据都可以借助云存储,甚至可以实现实时采集、平台共享。大数据思维逐渐变为“样本即总体”的全数据思维方式,利用云计算强大的计算能力挖掘数据中的潜在信息。
结合大数据的主要特点,在课程设置方面有意识强调计算机处理大数据能力的培养。如在《数学分析》、《线性代数》、《概率论与数理统计》等课程增设matlab数学实验,让学生了解简单编程设计解决问题的过程。在《多元统计分析》、《时间序列分析》、《统计计算与数据挖掘》等传统统计课程中,以R为主要教学软件,辅以SAS、SPSS、stata等统计软件。让学生从R编程入手,避免了C语言和VB语言枯燥且课时不够的问题,而且R等开源软件有许多包可以调用,大大提高编程效率。在《回归分析》课程中引入回归树、boosting回归、bagging回归、随机森林回归、LASSO回归等用来处理大数据。开设《excel数据分析及VBA 应用》和《数据库原理及实践》等课程强化学生的数据库操作能力。大数据是统计和计算机的融合,增设与大数据分析相关的专业选修课程,如数据挖掘课程、Python语言、大数据处理技术(Hadoop)、数据可视化技术等。总之,大数据时代统计专业课程设置要做到全面、合理和协调,重视R、matlab、python等实践性、交互性更强的开源软件和面向对象的开发性质脚本语言的学习和训练。
因此,大数据时代需要让学生了解海量数据信息的背景知识、熟悉大数据采集渠道及存储方式,以及掌握深度开发和利用海量数据信息的方法,这都对统计学专业人才培养的教学改革提出了更高要求。
(二)数据格式及预处理
数据分析的主要目的之一是提供信息以辅助预测决策,这就需要将数据中提取出的有价值信息呈现出来,因此数据分析结果的展示是统计分析过程中一个不可忽视的重要环节。随着大数据时代的来临,数据可视化工作愈发引起人们的重视,为了更清晰和便捷地展示数据,需要使用图表、动画、视频等静态或动态的方式来增强结果的直观性和可读性。传统的数据分析结果的主要表现形式是图形和表格,大数据时代所需各类信息的人数激增,各个层次的需求者接受能力差异较大,时效性也要求越来越高。因此,增强统计分析结果的直观化和可视化程度非常必要,这也对统计学专业人才培养提出了更高要求。
此外,以往数据进行审核、筛选之后,可以进行合理的分组和分布特征的处理,而大数据时代面对海量的数据,首先要进行数据清洗,从海量数据中剔除杂质。由于数据的体量庞大,如何辨别数据真伪以及测度数据偏倚成为统计分析过程中一个重要问题。
(三)数据分析方法
传统的统计分析方法已较为成熟,但它们都是在结构化数据的基础上发展起来的。如何对高维或超高维数据进行降维,如何把超出存储和计算能力的数据集化整为零,如何建立变量之间的关联,都对统计学科发展提出了新的问题,需要作出新的思考。同时,传统统计分析基于研究对象的先验信息,使用抽样技术来实现从样本来推断总体,根据推断统计思想探究变量之间的因果关系。而大数据挖掘则可以抛开人为假设,以数据清洗、数据挖掘和统计计算等为主要研究思路,通过对比、归纳等算法挖掘数据里的内在信息,以发现海量数据内部所隐含的关联关系及内在隐含规律和特征。
可见,与传统统计基于某种理论和经验提出假设,然后通过调查样本数据、构造统计量等过程判断原假设的正确与合理性相区别,大数据时代分析的起源可以从数据出发,基于数据建模思路以识别现象内部可能存在的关联。
(四)数据结果展示
传统统计数据样本量小、格式相对统一,在收集样本和统计分析过程中,可以通过一些方法和一系列检验来计算数据的准确性。与此不同,大数据则呈现出数据量庞大、格式多样、精确度低等特点。大数据格式除包括文本、表格等结构化数据外,更是通过音频、视频、图片、通话记录等半结构化和非结构化数据来存储,而且半结构化、非结构化数据逐渐占据主流。这些数据虽然结构格式不一,但却是现实世界的真实反映,隐含着大量信息有待开发。传统统计中的调查数据一般是一个指标下的数字,如收入、人口、投资、消费等,而当前大数据是半结构化或非结构化的,任何出行信息、诊疗记录、购物偏好、生活习性等都可作为数据的主要来源,以声音、位置、录像、微博、订阅号等丰富的形式储存下来。这样,统计分组、指标、指数等方法可能无法完全适应分析需要,对于图片、音频、视频等非结构化数据的处理能力都需要及时改进。
三、大数据时代统计专业人才培养中的问题
从各学科对中高端酒店的研究分布图可以看出,对中高端酒店研究最多的是服务业经济,占比达43.68%;其次是贸易经济,占比为22.99%;排名第三的是宏观经济管理与可持续发展,占比9.20%;旅游科学仅占比仅2.3%,排名第八。详见图2。
企业的人力资源部门应及时掌握企业人员的流动状况,准确地进行人才流失风险的评估、预测和防范,并及时作出人员的调控以防止因人员缺失带来的对业务上的影响,认真分析每一位员工离职的原因,从中找出企业的不足之处,并对超出预测范围的原因进行着重分析,采取相对应的措施,防范于未然。
2. 计算机类课程。传统统计学专业计算机学习内容主要集中在两个层面:一是计算机基础知识和基本技能;二是统计专业计算软件的学习,如SPSS、SAS等。这些内容已无法达到大数据时代数据处理对计算机知识的新要求。因此,应根据专业方向酌情增加计算机类课程:如面向对象的程序设计、数据库原理及其应用、大型数据库系统、Linux系统等。此外,许多传统统计课程侧重理论推导而对统计计算重视不够,事实上借助数值模拟而不是复杂的公式推导可能更便于知识的掌握和理解,因此在课程教学中要重视统计计算的思想灌输和算法学习。
如前所述,大数据时代在数据搜集、分析和结果展示的各个环节,都对统计学专业人才培养提出了新的要求。数据获取阶段,由于大数据多产生和存放于互联网,可以通过爬虫技术对所需数据进行爬取。数据预处理阶段,由于大数据体量庞大,信息嘈杂,需要做好数据清洗、降噪、降维等预处理。数据挖掘阶段,对于非结构化和半结构化数据的处理、转化,以及与传统统计分析工具的有效结合成为这一环节的关键。数据展示阶段,需要丰富的数据可视化技术来增强结果的可读性。
(一)课程设置方面
1. 专业课程。一是缺乏对大数据应用技术的及时更新和补充,统计类课程的教学内容与培养方案与当前大数据分析人才的需求不能完全对接,也存在不同课程教学内容的交叉重复,不同学历层次的教学内容和深度界限不明确等问题。二是统计学作为一门方法论学科,在学习目标和内容上与数学有着密切关系,在课程设置时许多数学类课程的讲授内容和难度与数学专业类似。但是,如果数学类课程内容过多,且学习周期长,就会挤占统计类专业课学习的时间,因此需要协调数学类课程与统计专业类课程之间的课时分配问题,同时数学类课程的学习如何为后续统计类专业课程做好铺垫仍有待进一步探讨。
大数据时代对统计人才培养在数据挖掘和分析、业务理解沟通、报告展示表达等方面都提出了更高更宽的要求。也就是说,一个合格的大数据分析人才,需要具备这些基本能力:第一,扎实的统计基本理论。数据建模离不开统计基础理论的指导,只有深刻理解统计理论,才能在此基础上建立模型,解决实际问题。第二,掌握数据库的设计及原理。数据搜集是数据分析流程中的重要环节,只有对数据库特别是并行数据库原理有一定了解,才能不断优化数据库。第三,一定的计算机编程基础。传统统计软件在处理数据的数量及结构方面都存在一定局限,大数据的处理需要借助Hadoop、Hive等计算工具进行深度数据挖掘。第四,某个专业领域知识的了解。统计是方法论,需要与某个行业领域相结合,如生物统计、经济统计、卫生统计等,因此要熟悉特定领域的基本专业知识。针对这些培养目标和当前统计学专业人才培养中存在的不足,可以在课程设置和社会实践方面逐步进行完善。
针对大数据分析过程中不同阶段的特征,对比当前统计学专业人才培养过程中的课程设置和实践教学等环节,将可能存在的欠缺之处进行及时弥补,对培养适应时代需要的统计人才至关重要。
(二)实践教学方面
当前,统计学专业在人才培养过程中存在实践教学不足的问题,包括:实践课程比重较低,没有体现出工具性学科的特色,而且与较为成熟的理论课程相比,实践课程内容和方式差异较大、质量参差不齐;考核方式手段单一,对于大型实训操作机会少,无法达到学以致用的教学宗旨;学界落后于业界,对业界需求接触不多,与专业直接对口的实习岗位不多,导致理论与实际相脱节。实践教学方面不足,学生毕业后知识面较窄,学生学完统计学知识以后,对所学知识应用到哪些领域了解不够。因此,实践实习方面的薄弱造成学生在运用专业知识发现、提出和解决实际问题方面不能较好地衔接,运用统计专业知识挖掘大数据时代现实问题的能力不够。
四、统计学专业人才培养模式改革创新路径
不同气候条件的播种深度。在干旱雨涝的不同情况下,播种深度不同。在干旱的情况下,土壤表层墒情较差,影响种子发芽,要适当深播。据试验,深播的种子发芽较好,根系分布深,苗期较抗旱,干旱时次生根数较多。成熟时黄枯叶少、绿叶多,产量高。浅播的种子根系分布在土壤表层,苗期不抗旱,加上分蘖节较浅,干旱时次生根少,使植株出现未老先衰现象。在干旱的情况下,粘性土保水性好,播深则浅于3寸。砂性土保水性差,播深可稍大于3寸。
(一)注重计算机能力培养
研究组无病进展生存期的中位时间为178.4 d(95%CI:101~231 d),对照组为94.9 d(95%CI:42~114 d),两组比较有统计学意义(χ2=13.114,P=0.000)。见图1。
(二)加大社会实践训练
第一,强化案例教学。传统授课以课堂讲授为主,所选案例素材较少且陈旧,而大数据时代数据呈爆炸式增长,如百度、淘宝、Google等网站都存储了大量的数据库可供教学科研之用。因此,利用这些数据库资源,可以开展诱导式、启发式、现场案例式等大数据挖掘教学。通过对这些实际数据的案例分析,培养学生独立发现、分析和解决问题的能力。第二,注重校企合作。大数据时代要求高校培养具有把握市场机遇、发现和挖掘商业价值的复合型统计应用人才。所以,应加强校企合作,企业提供的数据和问题是在学校学习中所不能体验的,通过企业实习实践,学习处理现实中的项目,感受数据在现实世界中的真实运行,真正达到理论应用于实践的目的。第三,建立协同创新平台。建立统计学专业人才培养协同创新平台,与政府部门和企业中在大数据分析领域有重要需求的单位合作,吸纳他们中有经验的人才兼职校外导师。积极参与相关部门实施的统计调查,增设和共同建立相应的实践实习基地或平台展开长期合作。第四,增加社会实践经历。以项目为主线、教师为引导、学生为主体,实行导师指导下的社会实践教学,项目的主题可选取当今社会热点和焦点问题,特点是实践性、综合性和开放性。学生在教师指导下,独立或分组完成统计方案调查、收集数据、整理数据、撰写调查报告。增加学生参与社会实践的经历,积极拓宽实习实训基地,通过与第三方机构合作,培养学生处理更复杂实际问题的能力。第五,鼓励以赛促学。支持学生参加各类科技比赛,如全国大学生数学建模竞赛、全国大学生统计建模竞赛、统计市场调查大赛、阿里巴巴大数据竞赛、金融市场模拟交易大赛等。
网络用语“A了(嘞)个B”违反了现代汉语中的逻辑和语法习惯等常规的表达规则,但这种表达我们上文作了分析,虽然违反了语法规则但又不至于让语言接收者听不懂,这是为什么?
五、进一步采取的措施
(一)加强师资队伍建设
教师是引路人,教师质量直接决定人才培养质量,因此,提高统计学专业师资队伍建设是重中之重。现有教师大部分受过传统统计理论方法的训练,但在大数据领域,关于数据的清洗、挖掘、可视化等技术能力还需要提升,有关云技术、分布式计算、并行计算等数据挖掘技能准备不足。因此,需要尽快完善现有教师知识结构,坚持“引进与培养相结合,校内与校外相结合”。首先,鼓励自有教师中数学和计算机功底扎实的教师参加大数据相关会议和培训,及时关注大数据科学发展动态,弥补这方面内容的欠缺之处;其次,认识到大数据科学具有典型的交叉线和协同性特点,聘请大数据挖掘、大数据分析方向的业界人士,以讲座或辅导的形式,邀请他们参与统计学专业学生大数据素养方面的培养;再次,聘请电子商务与大数据企业、物联网企业专家,通过柔性引进的方式,尝试实行双导师制,与企业界人士联合培养。此外,大数据及其应用需要融合经济、统计以及计算机等多个领域的方法,因此需要将计算机科学、统计科学及其他数据应用部门的师资力量进行整合,统一规划课程,提高统计学专业教师的业务能力,培养适应社会发展潮流的大数据分析高端人才。
(二)灌输大数据统计思维
传统统计可能侧重学生的平均思维、变异思维、推断思维、指数思维等方面的训练,而大数据统计分析的数据来源更为复杂和广泛,侧重挖掘事物内部的相关关系,挖掘数据中可能隐含的有价值信息,具有复杂性和混杂性。因此,大数据思维方式也从以前的先定性再定量变为先定量再定性。传统的统计分析先定性、通过经验判断分析的方向,然后定量,对数据进行量化,最后再定性,根据分析得出结论。大数据时代统计分析变为先定量,直接从数据中寻找有价值的信息,随后进行定性做出判断和决策。对这些思维方式等的区别之处,需要在教学培养过程中及时引导和启发。
(三)改进考核方式
教学考核除概念记忆、数学推导等对基础知识的理解和基本运算能力的考核之外,还应创新考试考察方式,注重对学生的数据敏感性和动手分析能力以及对实际问题的解决和分析能力的考核。因此,可以适当增加实践项目,就现实中存在的实际问题,采取小组调研和报告撰写,辅以答辩的形式进行考察,这对学生日后适应工作岗位也能起到锻炼和引导作用。还可以设计一个大型项目的模拟计算,生成大数据样本,由学生设计算法进行数据挖掘,写出分析报告。
El Nio事件:Nio3.4指数大于等于0.5 ℃持续5个月或以上记为一次El Nio事件。断点的处理:若指数大于等于0.5 ℃间断两个月或以上,则认为两次事件不连续;若间断一个月,并且该月的Nio3.4指数的3个月滑动平均值大于等于0.5 ℃则认为前后事件连续,否则不连续。El Nio爆发时间:Nio3.4指数第一次大于等于0.5 ℃的月份的前一个月。El Nio事件分类:SP型:爆发时间在2—5月;SU型:爆发时间在6—9月。CPC计算ERSST.v4资料得到的Nio3.4指数,如图1所示。
总之,随着信息科技水平的不断提高和大数据理论的逐渐发展,大数据必将深入到国民经济和社会生活的方方面面,大数据的分析处理将成为政府、企业和个人预测决策的重要依据。大数据时代统计学专业人才培养既要面对挑战,更要抓住机遇,在专业建设和课程建设等方面进行改革创新,推动统计学的发展。由此可见,大数据时代对统计学专业人才培养方式的改革势在必行。为培养素质更高、能力更强的适应大数据时代的专业统计人才,需要积极探索一条改革之路。当然,统计专业人才培养改革是一个逐步探索、循序渐进的过程,不能对传统培养模式全盘否定,而应在原有基础上,逐步试点、局部调整,并建立有效的检验机制,以不断提高大数据背景下统计学专业人才培养质量。
参考文献:
[1]宗义湘等. 大数据背景下经济统计专业人才培养模式创新研究[J].河北农业大学学报(农林教育版),2017,19(2):32-36
[2]朱建平,张悦涵. 大数据时代对传统统计学变革的思考[J]. 统计研究,2016,33(2):4—7
[3]向书坚,平卫英. 30年来我国财经类院校统计学专业本科课程设置的历史回顾与展望[J]. 统计研究,2010,(1):74-78
[4]曾五一,肖红叶,庞皓,朱建平. 经济管理类统计学专业教学体系的改革与创新[J]. 统计研究,2010,(2):3-6
[5]赵彦云,刘子烨. 统计学要在大数据中扮演重要角色——ASA发布统计学科建设的发展报告[J]. 中国统计,2015,(12):4-5
[6]张海波,黄世祥. 统计学专业学生大数据分析能力的培养方式选择[J]. 统计与决策,2014,(24):66-68
[7]中国人民大学“大数据与应用统计”研究组. 大数据时代统计学的重构与创新[J]. 统计研究,2015,32(2):3-9
[8]李金昌. 大数据与统计新思维[J]. 统计研究,2014,31(1):10-17
[9]邱东. 大数据时代对统计学的挑战[J]. 统计研究,2014,31(1):16-22
[10]孟生旺,袁卫. 大数据时代的统计教育[J]. 统计研究,2015,32(4):3-7
作者单位:山西财经大学统计学院
责任编辑:康静
基金项目:2017山西财经大学教学改革创新项目“大数据背景下统计学专业教学改革与探讨”,(编号:2017203)
标签:数据论文; 统计学论文; 专业论文; 时代论文; 人才培养论文; 社会科学总论论文; 世界各国统计工作论文; 《内蒙古统计》2019年第2期论文; 2017山西财经大学教学改革创新项目“大数据背景下统计学专业教学改革与探讨”; (编号:2017203)论文; 山西财经大学统计学院论文;