10.11925/infotech.2096-3467.2020.0384
面向学术文献的作者名消歧方法研究综述
[目的]分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴.[文献范围]在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述.[方法]以作者名消歧的流程为主线系统梳理各项研究成果,分类总结特征提取、特征表示以及模型训练与预测等主题的研究,并针对研究中的共性问题进行多维度的讨论.[结果]在特征表示方面,相较于2016年之前的研究,基于图、概率和混合模型的方法优化了复杂特征的相似度计算.在模型训练与预测方面,基于机器学习的算法仍需要提高效率与泛化能力,使其能够满足大型数据库和增量消歧的需求.多数研究尚未解决数据中存在的诸如训练数据不均、特征数据缺失、一人多名等问题.[局限]由于各项研究的实证数据差异较大,未能对不同方法进行量化比较.[结论]提出从多源数据融合、用户干预以及预训练模型的引入等视角开展后续研究的思路.
作者名消歧、姓名歧义、重名消歧、文献数据库
4
TP393;G250(计算技术、计算机技术)
本文系国家社会科学基金重大项目“中国近现代文学期刊全文数据库建设与研究1872-1949”项目编号:17ZDA276的研究成果之一
2020-11-12(万方平台首次上网日期,不代表论文的发表时间)
共13页
15-27