DOI：10.3772/j.issn.1000-0135.2023.02.006

基于机器学习模型的科技论文潜在"精品"识别研究

全文直达

下载全文

在线阅读

引用

摘要：

综合运用科技文献特征向量空间和机器学习模型实现海量文献中潜在"精品"的自动识别与推荐,能够提升海量科技文献的科学影响和其科技发展促进作用.设计和实现基于机器学习的科技文献潜在"精品"识别分类器和模型框架,测度出国际高影响力期刊和国内图书情报与档案管理期刊论文的原文及引文特征,运用特征工程构建科技论文特征向量空间;然后分别采用支持向量机和朴素贝叶斯等传统机器学习模型,以及深度置信网络和多层感知机等深度学习模型进行潜在"精品"的自动识别,并基于ROC曲线(receiver operating characteristic curve)和混淆矩阵构建评价模型识别效果的指标体系.研究结果显示:①深度学习模型在潜在"精品"识别方面的效果较差,而传统机器学习模型的识别效果较优,其中随机森林和支持向量机的潜在"精品"识别效果最佳,决策树识别效果次之,朴素贝叶斯识别效果较差且稳定性不足.②影响因子越高的期刊潜在"精品"识别效果越好;无论国际自然科学领域高影响力期刊,还是国内社会科学领域图书情报与档案管理期刊,识别出的"精品"论文全部为被引频次较高的论文且综述论文的占比较低,国内期刊的"精品"论文中仅有1篇为综述论文.③"精品"论文的计量特征值与总体论文样本相比,呈现较大差异,即"精品"论文的首次响应时间较短且拥有基金资助,参考文献数量、关键词数量和被引频次较多,摘要和论文篇幅较长且偏向多作者论文.实证结果表明,机器学习模型能够准确识别科技文献中的潜在"精品",并提升潜在"精品"识别的自动化程度,为海量文献中潜在"精品"文献的自动识别与传播利用提供理论参考与方法支撑.

关键词：机器学习、深度学习、精品文献、特征工程、随机森林、支持向量机、朴素贝叶斯、深度置信网络

所属期刊栏目：42

分类号：G250;TP391;G350

资助基金：国家社会科学基金20CTQ031

在线出版日期：2023-04-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：189-202

英文信息展示

期刊专题