10.3969/j.issn.1673-629X.2022.08.024
一种基于论文画像的科技文献数据去重算法
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一.在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战.为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法.该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据.实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上.
论文画像、数据清洗、数据去重、词频-逆文档频率、词向量
32
TP391(计算技术、计算机技术)
国家重点研发计划2017YFB1400301
2022-08-29(万方平台首次上网日期,不代表论文的发表时间)
共7页
148-154