刘雨农:人文社科专题数据库建设的主题选择研究论文

刘雨农:人文社科专题数据库建设的主题选择研究论文

·专 题·

摘 要:[目的/意义]探索一种融入数据驱动思维的人文社科专题数据库建设主题选择方法,为相关主体在建库主题的遴选、比较和确定等工作提供决策参考。[方法/过程]从政策、用户两个维度出发,提出基于政策文本与检索数据的人文社科专题数据库主题筛选框架。以Fulink平台为例,基于政策文本LDA主题分类建模和检索数据的词频统计归类,确定专题数据库建设备选主题,最后通过比对筛选将主题进行分类。[结果/结论]本文构建的主题选择框架,能够有效提升相关主题选择工作的全面性、准确性、科学性,为人文社科专题数据库建设的项目规划等提供了良好的思路。

关键词:人文社科;专题数据库;主题选择;LDA

专题数据库是针对用户信息需求,对某一专题的信息进行收集、分析、处理、存储并按一定的标准和规范将其数字化的信息资源库。在人文社科领域,专题数据库已成为各学科数字化转型的基础性工作,在数据资源开发、科研内容创新、科研方法支持等方面提供了有力支持。近年来,在国家政策支持和现实需求的双重作用下,我国建成了一系列人文社科专题数据库,涉及哲学、历史、艺术、文化等众多科学领域,有力地促进了人文遗产和社会记录的保存与传播,也有效支持了相关学科的研究工作。

主题的选择与论证是专题数据库建设的起点和开始,决定了专题数据库的建设方向和建设效果。然而,过去人文社科专题数据库的主题选择方式主要依靠建库主体的资源优势和决策者的经验判断,难以全面回应多方面的需求,进而限制了专题数据库的功能实现以及进一步的服务延伸。为此,本文提出了一种新的主题选择框架,通过对客观文本和行为数据的科学分析支持人文社科专题数据库建设,以期避免主观性、单一化决策带来的弊端,提高专题数据库主题选择的全面性、准确性与科学性。

1 文献综述

随着数字人文和社会计算的推进,人文社科领域对信息资源保障提出了更高的要求,专题数据库建设的理论和方法成为信息管理及相关人文社科学科的重要研究话题。目前,虽然针对主题选择的专门性研究仍不多见,但在数据库建设的综合性研究中已被大量提及,主要涉及以下3个方面:

1.1 专题数据库主题分布描述

经过多年发展,国内外建立起大量人文社科专题数据库,主题涵盖了历史、经济、文化等众多学科。部分学者对现有数据库主体分布进行了调查研究,如刘青等以州为单位,调查了美国特色数据库建设状况,并将其主题归纳为政治与政策、军事和战争、法律和法规、经济与就业等9个方面,同时指出,文化娱乐类专题数据库在全美州立图书馆中占比最大[1]。何小月等将专题数据库主题内容划分为学科专业、地域特色、名人特藏等7个方面,同时选择了中美20所高校的自建数据库进行横向对比,指出国内高校在学科专业和地域特色类数据库建设存在短板[2]。鄂丽君将调查样本扩展至我国所有“211工程”高校后得出了相反结论,认为学科特色和学校特色资源项目占总数比超过60%[3]。此外,陈钦明等同样针对不同性质的专题数据库主题分布进行了归纳[4-5]。这些研究尽管在专题数据库主题划分视角和划分粒度上存在差别,但是有助于明确人文社科专题数据库的建设现状和定位,能够为其他专题数据库建设主题选择提供参考。

“扎根中国,服务中国”是赛默飞对中国市场的郑重承诺。赛默飞将积极拓展本土合作的深度和广度,将全球领先的科技融入本土化的实践中,帮助本土客户使中国变得更健康、更清洁、更安全。同时加大助推和培养本土创新,助力中国在医疗健康、制药与生物制药、食品安全以及环境监测等各垂直市场领域的蓬勃发展。(赛默飞世尔科技(中国)有限公司)

1.2 专题数据库主题选择基本原则

对于人文社科专题数据库在实际建库过程中产生的各类问题,部分学者从建库流程的角度进行探讨,认为主题选择的不科学、不合理是这些问题产生的重要原因之一,并以此提出了一系列主题选择原则。王昶认为,专题数据库建设是一项长期工作,主题选择应注重长期规划性和可持续性,以长远眼光和思路,根据现有条件选择符合实际状况的、成体系的特色主题[6]。刘青等提出主题内容广博化原则,认为专题数据库主题划分和内容深度上尽管存在差异,但应通过统一平台的整合,为用户提供全方位多系统的资源和信息服务[1]。徐大平等认为地方特色专题数据库的主题选择重点在于突出地方文化特色、体现地方文献特色,并提出了成系列小主题选择、科学性和实用性3个原则[7]。总体来说,这些原则可归纳为3点:第一,以需求为导向,能够切实满足用户长时期的信息资源需求;第二,突出特色性,力求避免在内容上同其他数据库的交叉和重复;第三,具有可操作性,根据信息资源体量和人力、资金等实际情况确定主题选择粒度,保证数据库质量。

1.3 专题数据库主题选择方法与过程

相对于专题数据库主题选择原则,已有研究很少涉及具体的主题选择方法。王昶[6]提出了专题数据库主题选择策划工作的3步流程:第一,开展广泛的调查研究,初定主题选择方向;第二,开展专家评议和读者调研,确定主题选择的可行性;第三,考察建库资源与技术水平,明确主题选择内容。任航等[8]对长春市若干高等院校的在校艺术生进行了问卷调查,通过需求情况确定数据库主题选择。可以看到,当前专题数据库的主题选择方法依然以专家论证和问卷调查等方式为主,最终决策仍然依赖于决策者的经验判断。

综上所述,已有研究充分重视了主题选择对专题数据库建设的重要作用,为专题数据库主题选择明确了原则和方向,提供了良好的思路和方法。然而,现有研究成果依然存在一定不足:第一,研究大多集中于宏观层面的原则性方针,在数据库建设的实际过程中很难转化为直接的、具体的行动方案,可操作性存在一定限制;第二,方法上依然以用户调查和专家咨询为主,带有较强的主观性,难以保证决策的科学性;第三,并未考虑不同性质的主体在数据库建设中的动机差异。在大数据、智慧数据的背景下,面对高速增长的数据存量和复杂化的信息需求,应在原则性、经验性探索的基础上,充分发挥数据分析等技术和方法的重要作用,为数据库建设主体的建库决策提供支持和参考。

2 人文社科专题数据库建设主题选择模型构建

本文通过前期多地、多主体访谈调研,确定了专题数据库国家需求和用户需求的主方向,并以客观数据为基础,构建人文社科专题数据库主题选择框架,以期为相关决策提供支持。模型建构路线如图1所示:第一,从政务公开平台中,获取国家相关部门政策文本全文,并进行文本预处理。同时从信息服务商检索系统后台获取特定时间段的用户检索数据,筛选有效检索语句;第二,提取政策文本中的实意性名词,并进行LDA主题建模,形成若干备选主题;第三,将采集到的检索语句分别提取关键词,利用BM25算法同机构已有文献资源进行匹配,通过排序和归纳筛选出备选主题词;第四,综合比对结果,对结果进行分类。

图1 人文社科专题数据库建设主题选择框架

2.1 需求调研与分析

最后,根据以上结果,输出每个主题的前若干关键词,并以窗口形式展示。最终结果如图5~8所示。

防治方法:可选用抗病品种,并用1.5%植病灵浸种;增施钾肥,合理密植,清除病残体,开沟排水;发病初期在晴天中午用瑞毒霉和天丰素混喷,3~5天后再喷一次。

1)理想型主题选择:教育、互联网与大数据

第二,微观层面的用户使用需求。作为人文社科专题数据库的直接使用者,用户的需求相对具体和明确。如科研人员对特定专题领域资料的集中需求,公众对某一主题知识的学习兴趣等。但由于不同用户使用动机、需求粒度、表达方式等存在差异,此类需求较为多元,调查和识别的难度较高。

对于用户使用需求,过去一般采取问卷、访谈等方式,在调查对象规模和代表性上存在一定限制。当前,由于人文社科领域的信息爆炸式增长和碎片化分布加深了信息的获取难度,搜索引擎逐步成为用户对于信息搜寻的主要工具。对此,本文以搜索引擎中的检索记录衡量用户的实际需求。

2.2 基于LDA的政策主题生成

LDA(Latent Dirichlet Allocation,隐含狄利克雷函数)模型是一种文档生成模型,即包含词、主题、文档三层结构的贝叶斯模型。该模型通过将文档—词汇矩阵转化为文档—主题矩阵和主题—词汇矩阵来实现主题的识别与生成[11]。作为一种非监督的机器学习方法,LDA在大规模文档中能够有效实现主题识别任务。简要来说,LDA主题生成过程可分为3个步骤,首先对语料库中的每一篇文档,从主题分布中抽取一个主题,其次对所抽取主题中所对应的词分布中抽取一个词语,最后充分阐述过程直至实现所有文档和所有单词的遍历。如图2表示。

图2 LDA模型示意图

2.3 基于BM25算法的资源匹配

特定主题的人文社科专题数据库建设必须以充足的信息资源作为基础保障。尤其是对于检索关键词,必须同资源储备进行匹配,判断其是否具备专题开发条件。本文基于BM25算法,通过计算、排序每个检索词的BM25得分,实现主题关键词进行二次筛选。

仔细拆分振威展览业务来看,发现2015-2017年公司的其他展会业务收入均是正向增长的,仅能源装备类业务收入是逐年下滑的,而这一业务是振威展览最大的收入来源。2015年-2017年,能源装备类会展项目收入占振威展览营业收入比例分别为57.72%、38.50% 和27.78%,占比逐年下降,且下降幅度很大。需要注意的是能源装备类业务收入占比下滑不只是其他业务收入增长带来的的挤占效应,更是这一块业务收入绝对值的下滑。2015-2017年,能源装备业务收入分别是7996万元、6839万元、5843万元,2016年和2017年振威展览能源装备业务收入同比上一年均下滑14.5%左右。

BM25是二元独立模型的拓展形式之一。作为一种相关性排序函数,BM25模型根据计算给定检索词与文档的相关性得分并累加,进而对匹配文档进行排序。该模型由于算法设计较为灵活,被广泛应用于搜索引擎当中。范晨熙等通过将BM25模型与开源搜索框架Lucene结合,建立了BM25相关度搜索模型[9],何喜军等利用该模型,构建了专利转让索引库[10]。本文基于理论框架,对该模型进行了拓展与应用。

首先,对提取到的关键词进行语素解析,产生语素qi。对于所有馆藏资源的摘要文档D,计算每个语素Qi与D的相关性评分。最后,将Qi相对于D的相关性得分加权并求和,最终得到Q与D的相关性得分。评分公式为[10]:

其中,k1、b为调节因子,fi是关键词D中出现的次数,dl是D的长度,avgdl是资源库中全部文档的平均长度。

此外,IDF公式如下:

其中,N为贮藏文献的所有文档数量,n(qi)为包含了语素qi的文档数。根据IDF公式,包含qi的文档数越多,其权重越低。

3 实证研究

3.1 数据来源与实验环境

本文从可测量角度出发,以福建省为例,通过政策文本衡量国家需求,通过检索数据反应用户需求。由于国家各级政策发布机关单位数量庞大,内容宽泛,本文仅选取国家文化与旅游部、福建省文化与旅游厅近5年发布的各类政策文本作为实证样本,通过爬虫工具获取原始文本后,手工剔除人事变动、财务审计等管理类文件,得到有效政策文本1 756条。检索数据从FuLink(福建省高校数字图书馆)平台后台获取,按照检索排行降序顺序,选择人文社科相关的检索条目,共计10 000条,部分记录如表1。FULink平台包含福建省53所成员馆,拥有完善的在线系统和稳定的访问流量,检索数据能够反映出省域内用户的一般需求。

表1 部分检索词

序号检索类型检索词匹配方式资料类型检索结果条数访问IP访问时间1题名国际法中的历史性权利研究前向匹配全部1219.229.128.1292019-07-1817∶11∶192题名呐 喊前向匹配全部21120.35.247.642019-07-1816∶58∶113题名金融工程前向匹配全部124172.24.4.2262019-07-1816∶43∶58

表1(续)

序号检索类型检索词匹配方式资料类型检索结果条数访问IP访问时间4题名自然保护地管理分类应用指南前向匹配全部0219.229.128.1292019-07-1816∶37∶375题名IUCN自然保护地管理分类应用指南前向匹配全部0219.229.128.1292019-07-1816∶37∶166题名英语口语前向匹配全部222117.136.75.2482019-07-1816∶35∶197题名国际工程投融资前向匹配全部0219.229.128.1352019-07-1816∶19∶548题名戚继光前向匹配全部561.151.178.1972019-07-1816∶06∶339题名兰 登模糊匹配全部13172.17.144.502019-07-1815∶29∶0510题名牛津1阶模糊匹配全部0172.17.144.502019-07-1815∶28∶37

不同于文本语料,检索记录多以单个检索词的形式表示,缺乏上下文语境,难以利用NLP技术进行主题识别。由于数据总量相对较少,因此本文选择人工方式判断检索词语义,并进行主题归纳。

湖北省是我国水生蔬菜的主要产区,洪湖市是重要力量来源之一,而洪湖水产是洪湖市主要的农业支柱产业,以水产品为主,其种养历史及种养经验丰富,在水生蔬菜的品牌发展上也已卓有成效,通过了多项绿色无公害产品认证,建立了如“洪湖莲藕”“洪湖藕带”等多个著有洪湖标签的特色农产品,进一步提高了洪湖水生蔬菜产品的附加值。洪湖市不断涌现出大量的水生蔬菜加工企业,且已发展了多家龙头企业,产业集聚优势明显,企业带动能力强,为农民增收做出了较大贡献,逐渐形成了农业产业化经营,其水生蔬菜加工规模居全国前列,出口水生蔬菜制品条件良好。

通过Fulink后台,选择2019年检索记录,将输出结果按照词频排序,选择检索次数大于1 000的关键词,并将非人文社科范畴的词语剔除。最后,将检索词与资源库各类文本文档进行匹配,筛选出命中词汇。部分结果如表2所示。

3.2 政策文本数据处理

LDA模型需要对分类数量进行预先设定。该数值一般采用困惑度确定,计算公式如下:

p(w)=∑zp(z|d)×p(w|z)

现有的转基因食品分析检测技术,适用的范围和优势不同,能够为各项检测分析工作的开展提供技术支持和保障。随着转基因食品的不断增加,为保证食品安全,还需要进行相关分析检测技术的研究,提出有效的检测方法。

其中z、d分别指训练过的主题和测试集的各篇文档。分母N是测试集中出现的所有词。一般来说,困惑度随主题数K增加而下降。如图3所示,通过计算,当K值取4时,困惑度曲线下降趋势趋近于稳定,此时K的取值为最佳数量。

图3 困惑度曲线

构建LDA模型以分析每一篇文章的话题分布,利用训练完的模型将政策文本转化为话题分布函数,并将文本—主题向量与原文本合并,部分结果如图4所示。

图4 文本—话题概率分布(部分)

满足不同层面、不同对象的信息需求是数据库长期建设运营和持续发展的核心动力。对于对象群体复杂、数据形式多样的人文社科领域,专题数据库的主题选择更应以需求为导向。不同性质的建库主体由于机构职能、服务对象等方面存在差异,专题数据库产品的需求内容和重心也存在显著区分。如公共机构建设的专题数据库普遍重视公共需求,为国家发展战略和公益事业提供支持;而商业性专题数据库则更加侧重于通过满足用户使用需求来扩大市场,实现自身盈利和发展。对此,本文将人文社科专题数据库需求归纳为两个层面:

图5 LDA主题分类1输出结果

图6 LDA主题分类2输出结果

图7 LDA主题分类3输出结果

图8 LDA主题分类4输出结果

3.3 检索记录数据处理

2)对晋元庄路口与阜石路路口之间的行人过街,其信号灯放行时序与下游阜石路路口东西直行相位相同,此时南北方向车辆因处于排队状态,因此行人过街安全性得到保证;同时当南北向车流获得通行权,行人过街处于红灯状态,因此减缓了行人过街对直行车辆造成的影响.

表2 2019上半年人文社科检索词排行(部分)

排名检索词排名检索词排名检索词排名检索词1信息检索9百年孤独17追风筝的人25红楼梦2平凡的世界10微观经济学18考研英语26SPSS3Photoshop11三 体19小王子27张爱玲4心理学12英语口语20经济学原理28运筹学5管理学13活 着21牛 津29白夜行6东野圭吾14宏观经济学22计量经济学30雅 思7围 城15公务员23大数据8英 语16经济学24挪威的森林

本文实验环境为Inter Core i7-7700HQ、2.8GHz、8线程CPU,8GB内容容量的PC机,家用标准版64位Windows10操作系统。集成开发环境为JetBrains PyChrm,部分功能基于Python语言编程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。

对照组当中的患者主要采用常规的护理方式进行护理,主要为规范化脑血管病二级防治,主要包括抗血小板聚集,活血化瘀,调整血压,控制血脂、血糖,维持患者酸碱、电解质和水平衡,呼吸道功能保持畅通,预防感染且要对症治疗。同时积极进行康复训练。治疗组在常规基础上加用加味桂枝茯苓丸颗粒剂,1天2次,连续2周。

3.4 备选主题分类

比对上述两类主题分类结果,进行汇总、比对和分类,最终形成3类备选主题。

第一,宏观层面的国家社会需求。人文社科专题数据库通常需要承担部分国家、社会层面的宏观需求,如为国家重大战略部署提供数据支撑、对非物质文化遗产进行保护与抢救、弘扬优秀历史文化传统、纪念特殊事件等。尤其是对于公共性质的建库主体,更应在宏观战略需求的背景下,有针对性地规划专题数据库建设,为相关政策提供有效支持。

3.3 对居家老年糖尿病患者实施健康干预需患者家属支持 糖尿病是一种慢性疾病,治疗措施不是“药到病除”的短暂过程,而是大部分时间在医院外自我管理[5]。对居家老年糖尿病患者的健康教育并非一次即可完成,需长期进行。不仅患者要受教育,家属也应了解糖尿病患者的教育内容。帮助患者克服因疾病的迁延而产生消极情绪,给予心理上的安慰和生理上的督促,使老年糖尿病患者能树立起控制疾病发展的信心,合理生活,引导患者自我管理和预防保健,使生活质量得到提高。

政策文本是政府相关部门为了实现特定要求,以权威形式颁布的文件,是国家、社会需求最直观的表达和体现。在政府政务全面公开、自然语言处理技术快速发展的背景下,大批量政策文本的开放获取和深度挖掘已具备可行性。对此,本文通过挖掘政策文本内容,实现宏观需求的分析。

通过比对,此类主题选择内容同时出现在政策主题和检索主题分类中。意味着在现有资源的基础上,能够同时响应国家和用户需求,建议优先作为专题数据库建设主题。

由图7可见,随着一段还原氢气露点的增加,对应钼粉的费氏粒度增大趋势较为明显,呈正相关关系,样品粒度从5.7μm增大到6.4 μm,增加一段氢气露点可用于生产大粒度钼粉产品。受设备条件制约,氢气露点高于+20 ℃时对钼粉粒度的影响未进行研究。

教育学与教育事业是人文社科领域的重要话题,大量职能部门均对教育事业发展进行了专门性部署,尤其是红色教育、传统文化教育、人文素养教育等方面近年来获得了极大关注。在用户层面,由于以高校图书馆联盟为实证对象,用户以高校学生为主,因此,数据库建设主要回应以备考或个人发展为目的的需求。显然,各类人文社科教育需要大量专门性文献资料为支撑,因此专门性数据库建设势在必行。

近年来,互联网与大数据为人文社科领域带来了巨大的变革,尤其是网络安全、电子政务、数据资产等议题正在引起相关部门的高度重视。此外,大数据更是为人文社科领域的研究提供了新的契机和方法,从检索数据来看,人文社科对于数据科学、编程语言、计算工具等方面的资料存在大量需求。

综上所述,只有监管部门和施工企业加强对施工现场的扬尘管控,才能有效的减少建筑施工所带来的环境污染,改善生态环境,使人与自然和谐共处,促进资源共享及社会的可持续发展。

2)政策导向型:非物质文化遗产、旅游

此类主题选择通常侧重于公共性建库主体,能够有效回应国家政策要求,有助于发挥其公共文化服务等方面的职能。

非物质文化遗产和旅游是人文社科专题数据库的传统主题选择,从研究结果来看,非遗资源保护和旅游产业发展依然是当前文化及相关部门的工作重心,从中央到地方均有大量政策部署。在数据库建设过程中,建库主体可围绕本地资源,进行针对性的数据采集与加工整理,着力打造出具有地方特色的文化品牌。同时,不断拓展数据库的开放程度,并开展宣传推广工作,进而服务于地方旅游产业。

3)用户导向型:文学、经济学、语言

每个城市都会有自己的蔬菜供给基地,汤翠就住在那儿,南菜村。本来,城市是朝北规划的,汤翠他们就有些眼气。眼气也就那么一会儿,日子还得过下去,南菜虽不比新规划的北区好,但赶上好形势了,变化也算得上日新月异。

此类主题选择能够反映用户的现实需求,具有良好的市场前景,一般来说更加符合商业性的建库主体性质,而对于高校、科研院所等实际科研需求也能做到有效回应。与政策导向不同,用户需求更为多元,其影响因素也更加复杂。在本文的实证研究中,用户需求更多地集中于在文学、经济学和语言3类。其中文学作品相对于其他人文社科学术性资源来说,学科门槛较低,受众面更广。而经济学原理和方法对包括社会学、管理学、国际关系在内的多种学科同样实用,因此存在大量记录。而语言方面的需求则以英语学习材料和工具书为主,这是由高校用户对于等级考试、外文学术资源等硬性需求决定的。

4 结 语

本文构建了一种人文社科专题数据库建设的主题选择模型,为专题数据库的主题选择提供了一种全新的思路和方法。相较于以经验性判断为主的常见模式,本文通过对政策文本和用户访问记录进行深入挖掘和匹配,有助于进一步提高专题数据库建设决策的科学性、实时性和前瞻性。

需要注意的是,本模型面向人文社科专题数据库建设的决策支持,希望通过多渠道大样本的数据分析为专题数据库的主题选择工作提供科学有效的备选方案,这意味着该方法无法完全替代决策工作。专题数据库建设是一项复杂、持久的工作,不同地区和不同性质的建库主体均存在较大差别,也受到资金、技术、人员等因素的制约,建库人员的经验和价值判断依然具有不可替代的作用。在专题数据库的规划和论证过程中必须紧密结合自身实际情况,因地制宜地开展数据库建设工作,才能形成质量上成、功能完备、影响广泛的数据库产品。除主题选择外,建库方式、服务模式、推广方法的选择对专题数据库的发展同样具有重要影响。

此外,本文实证研究部分初步验证了模型的可行性,但在政策文本数量、馆藏资源类型、用户需求类型等方面仍存在进一步拓展和精细化的空间。在未来的研究中,可通过扩充数据源的广度和粒度,进一步提高模型的适用性和有效性。

参考文献

[1]刘青,高波.美国州立图书馆特色数据库建设研究[J].图书馆,2017,(3):72-80.

[2]何小月,雷锦怡,江翩翩.中美高校图书馆自建数据库比较研究[J].图书馆学研究,2019,(6):40-48.

[3]鄂丽君.高校图书馆特色馆藏建设的现状分析[J].图书馆建设,2009,(12):19-23.

[4]陈钦明.福建省高校图书馆自建闽台特色数据库现状调查与分析[J].图书馆学研究,2018,(3):48-52.

[5]孙瑾.军队档案专题数据库建设现状及存在问题——兼论数据组织阶段质量控制[J].档案学研究,2013,(3):41-45.

[6]王昶.自建数据库选题策划机制研究[J].图书馆学研究,2012,(6):41-43,27.

[7]徐大平,郎菁,梁芬玲.地方特色专题数据库选题若干问题研究——以陕西地区为例[J].情报杂志,2012,31(2):174-177.

[8]任航,潘逸尘.高校图书馆艺术教育主题服务内容、途径与策略研究[J].情报科学,2018,36(12):83-89.

[9]范晨熙,黄理灿,李雪利.基于Lucene的BM25模型的评分机制的研究[J].工业控制计算机,2013,26(3):78-79.

[10]何喜军,张婷婷,武玉英,等.供需匹配视角下基于语义相似聚类的技术需求识别模型[J].系统工程理论与实践,2019,39(2):476-485.

[11]张子振,储煜桂,吴小兰.基于LDA的多源文献主题及其差异研究——以“机器学习”为例[J].情报科学,2019,37(6):108-112,150.

ResearchonTopicSelectionofHumanitiesandSocialSciencesThematicDatabase

Liu Yunong Wu Keye Quan Zhaoxuan

(School of Information Management,Nanjing University,Nanjing 210023,China)

Abstract:[Purpose/Significance]This paper explored a topic selection method for Humanities and Social Sciences database with data-driven thinking,which can provide reference for relevant institution to make decisions on the topic selection of database.[Method/Process]On the basis of requirement analysis,the topic selection framework of Humanities and Social Sciences thematic database based on policy texts and retrieval data was proposed from two dimensions:policy and user.Based on LDA topic classification modeling of policy texts and word frequency statistical classification of retrieval data,alternative topics for thematic database construction were determined,and finally,topics were classified through comparative selection.[Results/Conclusion]The theme selection framework constructed in this paper provided a new idea and method for project planning of database,which could effectively improve the comprehensiveness of topic selection.

Keywords:Humanities and Social Sciences;thematic database;topic selection;LDA

DOI:10.3969/j.issn.1008-0821.2019.12.002

〔中图分类号〕G250.74

〔文献标识码〕A

〔文章编号〕1008-0821(2019)12-0011-08

收稿日期:2019-10-14

基金项目:国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:18ZDA326)。

作者简介:刘雨农(1991-),男,博士研究生,研究方向:智慧城市、社会网络。吴柯烨(1996-),男,硕士研究生,研究方向:自然语言处理。权昭瑄(1996-),男,硕士研究生,研究方向:金融大数据。

(责任编辑:郭沫含)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

刘雨农:人文社科专题数据库建设的主题选择研究论文
下载Doc文档

猜你喜欢