论文摘要
科学论文是科研成果的重要物化形式之一,也是衡量国家或者个人的学术水平和科研能力的重要评价参考。论文引用率是衡量一个国家科研论文被其他国家或机构的认可度的标志,下载量可以反映出论文的吸引力。国外学者研究过生物、数学等自然学科的英文文献存在着诸多因素对被引频次有影响作用,但研究中文文献的学者甚少。因此本文主要从中国知网上获取生物、数学、物理学、资源科学2007—2016年期间在指定20个期刊上发表的中文论文的数据,来研究中文论文中被引频次和下载量的影响因素,建立拟合被引频次和下载量的最优模型,并对高频被引论文进行识别,这对于评价论文质量有一定的价值,有助于评价研究的重要性。本文首先探究了中文论文不同属性特征下被引频次和下载量的分布规律,并且采用Pearson相关系数检验、Kruskal-Wallis检验、Nemenyi检验和Wilcoxon检验对每个属性特征与被引频次、下载量进行相关性检验。其次,分别对被引频次和下载量拟合模型,由于被引频次存在零膨胀现象,因此对被引频次拟合了Poisson回归模型、负二项回归模型、零膨胀Poisson回归模型和零膨胀负二项回归模型,对下载量拟合了传统计数模型,采用似然比检验和AIC、BIC准则比较出最适合拟合被引频次和下载量的模型,以最优模型分别讨论论文各属性特征对被引频次和下载量的影响作用。最后,采用Logistic回归模型、分类树、支持向量机和K最近邻模型对高频被引的论文进行识别,由于论文的高频被引存在不平衡特征,即样本中高频被引占比很少,因此采用了SMOTE算法对数据进行平衡化处理,分别对未处理数据和平衡化处理数据进行识别,以及对生物学和物理学高频被引的论文进行识别,根据准确率、召回率和AUC值比较数据平衡化前后的分类效果。研究结果表明,对被引频次拟合的最优模型是零膨胀负二项回归模型,拟合下载量的最优模型是负二项回归模型。通过对模型的分析,对论文是否被引用有显著影响作用的因素分别是:论文的下载量、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数、是否合作完成;对被引频次有显著影响作用的因素分别是:论文的下载量、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数;对论文的下载量有显著影响作用的因素分别是:被引频次、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、是否合作完成。基于SMOTE算法对数据平衡化处理后的分类结果相比未处理的分类结果要更好,虽然准确率有所降低,仍然保持较高的准确率,但召回率和AUC值明显提高。对于生物学和物理学而言,不同学科之间论文高频被引确实存在差异,而且经过对比Logistic回归模型、分类树、支持向量机和K最近邻模型的分类效果,分类树对生物学高频被引论文的识别效果更好,支持向量机对物理学高频被引论文的识别效果更好。
论文目录
文章来源
类型: 硕士论文
作者: 石浩言
导师: 费宇
关键词: 被引频次,零膨胀模型,非平衡数据,高频被引识别
来源: 云南财经大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 云南财经大学
分类号: O212.1
DOI: 10.27455/d.cnki.gycmc.2019.000622
总页数: 90
文件大小: 5257K
下载量: 82
相关论文文献
- [1].《水土保持通报》2017-2018年被引频次前20位论文[J]. 水土保持通报 2020(01)
- [2].基于文献计量学的权威中文公共管理学期刊论文的被引频次影响因素研究[J]. 公共管理评论 2020(02)
- [3].利用论文被引频次基准线遴选学者代表作的方法——以河南省学者论文为例[J]. 中国科技期刊研究 2020(08)
- [4].2018年CSCD期刊被引频次前300名[J]. 中国科技期刊研究 2019(11)
- [5].检验类核心期刊高被引频次论文特征分析[J]. 新闻研究导刊 2018(12)
- [6].国际“条件非线性最优扰动”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(06)
- [7].中国“条件非线性最优扰动”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(06)
- [8].国际“电网气象”主题被引频次最高的前11篇论文[J]. 气象科技进展 2017(02)
- [9].中国“电网气象”主题被引频次最高的前10篇论文[J]. 气象科技进展 2017(02)
- [10].国际“风云卫星”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(01)
- [11].国际“雾预报”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(02)
- [12].国际“雾”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(02)
- [13].国际“城市观测”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(04)
- [14].国际“气象史”主题被引频次最高的前10篇论文[J]. 气象科技进展 2014(06)
- [15].《运筹学学报》1997―2015年高被引论文分析[J]. 学报编辑论丛 2016(00)
- [16].关于学术论文低被引频次的一些反思[J]. 编辑学报 2019(S1)
- [17].文献计量学视角下的论文被引频次影响因素研究——兼评使用与被引之间关系[J]. 情报杂志 2019(04)
- [18].专利被引频次的时间影响研究[J]. 图书情报工作 2019(09)
- [19].多期刊比较视角下的论文被引频次若干影响因素研究[J]. 情报杂志 2018(02)
- [20].社会化标签对论文被引频次影响研究[J]. 图书馆论坛 2018(05)
- [21].科技管理核心期刊论文被引频次影响因素——基于国内5本高被引期刊的实证研究[J]. 出版科学 2016(02)
- [22].中国“城市观测”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(04)
- [23].图书情报领域最高被引频次论文分析与启示——以2010-2014年图书情报类核心期刊为例[J]. 情报科学 2015(08)
- [24].近30年来水族高被引频次论文研究分析[J]. 科技情报开发与经济 2014(09)
- [25].《第二军医大学学报》2006~2011年高被引频次论文一览表[J]. 第二军医大学学报 2013(02)
- [26].国际“延伸期预报”主题被引频次最高的前10篇论文[J]. 气象科技进展 2013(01)
- [27].2011年度《中国矫形外科杂志》高被引频次文章排行(前10名)[J]. 中国矫形外科杂志 2012(05)
- [28].NRR杂志在Web of Science中被引频次分析[J]. 中国组织工程研究与临床康复 2011(25)
- [29].2006—2010年CHINESE JOURNAL OF AERONAUTICS高被引频次文章前20名[J]. 航空学报 2010(12)
- [30].2008年《膜科学与技术》被引频次排序前10名的论文[J]. 膜科学与技术 2009(06)