科学论文被引频次和下载量的影响因素分析

科学论文被引频次和下载量的影响因素分析

论文摘要

科学论文是科研成果的重要物化形式之一,也是衡量国家或者个人的学术水平和科研能力的重要评价参考。论文引用率是衡量一个国家科研论文被其他国家或机构的认可度的标志,下载量可以反映出论文的吸引力。国外学者研究过生物、数学等自然学科的英文文献存在着诸多因素对被引频次有影响作用,但研究中文文献的学者甚少。因此本文主要从中国知网上获取生物、数学、物理学、资源科学2007—2016年期间在指定20个期刊上发表的中文论文的数据,来研究中文论文中被引频次和下载量的影响因素,建立拟合被引频次和下载量的最优模型,并对高频被引论文进行识别,这对于评价论文质量有一定的价值,有助于评价研究的重要性。本文首先探究了中文论文不同属性特征下被引频次和下载量的分布规律,并且采用Pearson相关系数检验、Kruskal-Wallis检验、Nemenyi检验和Wilcoxon检验对每个属性特征与被引频次、下载量进行相关性检验。其次,分别对被引频次和下载量拟合模型,由于被引频次存在零膨胀现象,因此对被引频次拟合了Poisson回归模型、负二项回归模型、零膨胀Poisson回归模型和零膨胀负二项回归模型,对下载量拟合了传统计数模型,采用似然比检验和AIC、BIC准则比较出最适合拟合被引频次和下载量的模型,以最优模型分别讨论论文各属性特征对被引频次和下载量的影响作用。最后,采用Logistic回归模型、分类树、支持向量机和K最近邻模型对高频被引的论文进行识别,由于论文的高频被引存在不平衡特征,即样本中高频被引占比很少,因此采用了SMOTE算法对数据进行平衡化处理,分别对未处理数据和平衡化处理数据进行识别,以及对生物学和物理学高频被引的论文进行识别,根据准确率、召回率和AUC值比较数据平衡化前后的分类效果。研究结果表明,对被引频次拟合的最优模型是零膨胀负二项回归模型,拟合下载量的最优模型是负二项回归模型。通过对模型的分析,对论文是否被引用有显著影响作用的因素分别是:论文的下载量、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数、是否合作完成;对被引频次有显著影响作用的因素分别是:论文的下载量、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数;对论文的下载量有显著影响作用的因素分别是:被引频次、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、是否合作完成。基于SMOTE算法对数据平衡化处理后的分类结果相比未处理的分类结果要更好,虽然准确率有所降低,仍然保持较高的准确率,但召回率和AUC值明显提高。对于生物学和物理学而言,不同学科之间论文高频被引确实存在差异,而且经过对比Logistic回归模型、分类树、支持向量机和K最近邻模型的分类效果,分类树对生物学高频被引论文的识别效果更好,支持向量机对物理学高频被引论文的识别效果更好。

论文目录

  • 摘要
  • abstract
  • 第一章 引言
  •   第一节 研究背景和意义
  •   第二节 国内外研究现状
  •     一、学术成就和论文影响力的评价方法
  •     二、论文属性特征
  •     三、论文引用的预测方法
  •   第三节 研究目的和主要内容
  •     一、研究目的
  •     二、主要内容
  •   第四节 论文结构安排
  •   第五节 本文的创新点和不足之处
  • 第二章 模型及方法介绍
  •   第一节 相关性检验方法
  •     一、Pearson相关系数检验
  •     二、Wilcoxon检验
  •     三、Kruskal-Wallis检验
  •     四、列联表数据的独立性检验
  •   第二节 计数回归模型
  •     一、Poisson回归模型
  •     二、负二项回归
  •     三、零膨胀模型
  •   第三节 模型优劣的衡量准则
  •     一、似然比检验
  •     二、AIC、BIC准则
  •   第四节 数据平衡化处理之SMOTE算法
  •   第五节 二分类模型
  •     一、Logistic回归模型
  •     二、分类与回归树(CART)
  •     三、支持向量机(SVM)
  •     四、K最近邻(KNN)
  •   第六节 二分类模型的评判准则
  •     一、准确率
  •     二、混淆矩阵
  •     三、精准率和召回率
  •     四、AUC值和ROC曲线
  • 第三章 中文期刊论文的特征分析和分布规律
  •   第一节 数据预处理
  •     一、原始数据
  •     二、数据缺失处理
  •     三、针对不同特征的数据清洗
  •   第二节 中文期刊论文的特征分布
  •     一、发表时间特征分布
  •     二、学科类别和期刊等级特征分布
  •     三、论文其他特征分布
  •   第三节 被引频次和下载量的分布规律
  •     一、被引频次的总体分布规律
  •     二、下载量的总体分布规律
  •     三、不同属性特征下的被引频次和下载量的分布规律
  • 第四章 论文被引频次和下载量的影响因素分析
  •   第一节 模型变量的筛选
  •   第二节 建立被引频次的计数模型
  •     一、传统计数模型的拟合结果
  •     二、零膨胀计数模型的拟合结果
  •     三、模型选择
  •     四、影响因素分析
  •   第三节 建立下载量的传统计数模型
  •     一、拟合结果
  •     二、模型选择
  •     三、影响因素分析
  • 第五章 中文期刊论文高频引用识别
  •   第一节 论文被引频次的非平衡分析及处理
  •     一、论文被引频次的非平衡问题
  •     二、未处理的论文被引频次的分类结果
  •     三、基于SMOTE算法的被引频次平衡化处理
  •   第二节 对平衡数据进行论文高频引用识别
  •     一、Logistic回归模型结果分析
  •     二、CART模型分类树结果分析
  •     三、SVM结果分析
  •     四、K最近邻结果分析
  •     五、分类效果比较
  •   第三节 生物学和物理学的论文高频引用识别
  •     一、Logistic回归模型结果分析
  •     二、CART模型分类树结果分析
  •     三、SVM结果分析
  •     四、K最近邻结果分析
  •     五、分类效果比较
  • 第六章 结论与展望
  •   第一节 结论
  •   第二节 展望
  • 参考文献
  • 附录
  •   附录A 数据示例
  •   附录B 代码(部分)
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 石浩言

    导师: 费宇

    关键词: 被引频次,零膨胀模型,非平衡数据,高频被引识别

    来源: 云南财经大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 云南财经大学

    分类号: O212.1

    DOI: 10.27455/d.cnki.gycmc.2019.000622

    总页数: 90

    文件大小: 5257K

    下载量: 82

    相关论文文献

    • [1].《水土保持通报》2017-2018年被引频次前20位论文[J]. 水土保持通报 2020(01)
    • [2].基于文献计量学的权威中文公共管理学期刊论文的被引频次影响因素研究[J]. 公共管理评论 2020(02)
    • [3].利用论文被引频次基准线遴选学者代表作的方法——以河南省学者论文为例[J]. 中国科技期刊研究 2020(08)
    • [4].2018年CSCD期刊被引频次前300名[J]. 中国科技期刊研究 2019(11)
    • [5].检验类核心期刊高被引频次论文特征分析[J]. 新闻研究导刊 2018(12)
    • [6].国际“条件非线性最优扰动”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(06)
    • [7].中国“条件非线性最优扰动”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(06)
    • [8].国际“电网气象”主题被引频次最高的前11篇论文[J]. 气象科技进展 2017(02)
    • [9].中国“电网气象”主题被引频次最高的前10篇论文[J]. 气象科技进展 2017(02)
    • [10].国际“风云卫星”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(01)
    • [11].国际“雾预报”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(02)
    • [12].国际“雾”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(02)
    • [13].国际“城市观测”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(04)
    • [14].国际“气象史”主题被引频次最高的前10篇论文[J]. 气象科技进展 2014(06)
    • [15].《运筹学学报》1997―2015年高被引论文分析[J]. 学报编辑论丛 2016(00)
    • [16].关于学术论文低被引频次的一些反思[J]. 编辑学报 2019(S1)
    • [17].文献计量学视角下的论文被引频次影响因素研究——兼评使用与被引之间关系[J]. 情报杂志 2019(04)
    • [18].专利被引频次的时间影响研究[J]. 图书情报工作 2019(09)
    • [19].多期刊比较视角下的论文被引频次若干影响因素研究[J]. 情报杂志 2018(02)
    • [20].社会化标签对论文被引频次影响研究[J]. 图书馆论坛 2018(05)
    • [21].科技管理核心期刊论文被引频次影响因素——基于国内5本高被引期刊的实证研究[J]. 出版科学 2016(02)
    • [22].中国“城市观测”主题被引频次最高的前10篇论文[J]. 气象科技进展 2016(04)
    • [23].图书情报领域最高被引频次论文分析与启示——以2010-2014年图书情报类核心期刊为例[J]. 情报科学 2015(08)
    • [24].近30年来水族高被引频次论文研究分析[J]. 科技情报开发与经济 2014(09)
    • [25].《第二军医大学学报》2006~2011年高被引频次论文一览表[J]. 第二军医大学学报 2013(02)
    • [26].国际“延伸期预报”主题被引频次最高的前10篇论文[J]. 气象科技进展 2013(01)
    • [27].2011年度《中国矫形外科杂志》高被引频次文章排行(前10名)[J]. 中国矫形外科杂志 2012(05)
    • [28].NRR杂志在Web of Science中被引频次分析[J]. 中国组织工程研究与临床康复 2011(25)
    • [29].2006—2010年CHINESE JOURNAL OF AERONAUTICS高被引频次文章前20名[J]. 航空学报 2010(12)
    • [30].2008年《膜科学与技术》被引频次排序前10名的论文[J]. 膜科学与技术 2009(06)

    标签:;  ;  ;  ;  

    科学论文被引频次和下载量的影响因素分析
    下载Doc文档

    猜你喜欢