基于机器学习模型的科技论文潜在"精品"识别研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3772/j.issn.1000-0135.2023.02.006

基于机器学习模型的科技论文潜在"精品"识别研究

引用
综合运用科技文献特征向量空间和机器学习模型实现海量文献中潜在"精品"的自动识别与推荐,能够提升海量科技文献的科学影响和其科技发展促进作用.设计和实现基于机器学习的科技文献潜在"精品"识别分类器和模型框架,测度出国际高影响力期刊和国内图书情报与档案管理期刊论文的原文及引文特征,运用特征工程构建科技论文特征向量空间;然后分别采用支持向量机和朴素贝叶斯等传统机器学习模型,以及深度置信网络和多层感知机等深度学习模型进行潜在"精品"的自动识别,并基于ROC曲线(receiver operating characteristic curve)和混淆矩阵构建评价模型识别效果的指标体系.研究结果显示:①深度学习模型在潜在"精品"识别方面的效果较差,而传统机器学习模型的识别效果较优,其中随机森林和支持向量机的潜在"精品"识别效果最佳,决策树识别效果次之,朴素贝叶斯识别效果较差且稳定性不足.②影响因子越高的期刊潜在"精品"识别效果越好;无论国际自然科学领域高影响力期刊,还是国内社会科学领域图书情报与档案管理期刊,识别出的"精品"论文全部为被引频次较高的论文且综述论文的占比较低,国内期刊的"精品"论文中仅有1篇为综述论文.③"精品"论文的计量特征值与总体论文样本相比,呈现较大差异,即"精品"论文的首次响应时间较短且拥有基金资助,参考文献数量、关键词数量和被引频次较多,摘要和论文篇幅较长且偏向多作者论文.实证结果表明,机器学习模型能够准确识别科技文献中的潜在"精品",并提升潜在"精品"识别的自动化程度,为海量文献中潜在"精品"文献的自动识别与传播利用提供理论参考与方法支撑.

机器学习、深度学习、精品文献、特征工程、随机森林、支持向量机、朴素贝叶斯、深度置信网络

42

G250;TP391;G350

国家社会科学基金20CTQ031

2023-04-23(万方平台首次上网日期,不代表论文的发表时间)

共14页

189-202

相关文献
评论
暂无封面信息
查看本期封面目录

情报学报

1000-0135

11-2257/G3

42

2023,42(2)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn