数据规模对合著关系预测的影响研究-期刊-万方数据知识服务平台

搜索

DOI: 10.3969/j.issn.1002-1965.2016.09.015

数据规模对合著关系预测的影响研究

张金柱 ¹

韩涛 ²

1.南京理工大学经济管理学院信息管理系南京 2100942.中国科学院文献情报中心北京 100190

在线阅读下载

引用

打印

摘要：[目的/意义]为了发现适合合著关系预测的最佳数据集规模，并公平比较合著关系预测的指标，需要比较和分析不同数据规模下合著关系预测的整体准确率和最优指标的变化情况。[方法/过程]选取12个共同邻居及其改进指标作为代表性的合著关系预测指标，在不同规模的合著网络数据集上运用链路预测的理论和方法计算不同指标的预测准确率，并发现不同数据规模下的最优指标，从而揭示数据规模对合著关系预测的影响以及造成这些影响的原因。[结果/结论]在图书情报领域，通过作者出现频次大小形成不同规模的合著网络数据集，实验结果表明，数据规模越大，合著关系预测的整体准确率越高，并在合著网络全数据集上实现了准确率的巨大提升，说明没有经过任何过滤的完整合著网络是合著关系预测的最佳数据集；同时，不同数据集中合著关系预测的最优指标发生了变化，验证了指标具有数据规模偏好，说明公平科学比较合著关系预测指标需要在多个不同规模的数据集下进行。造成该结果的原因在于随着数据规模变大，合著网络数据集越接近真实情况，改进指标的优势得到了充分发挥。该方法可以扩展应用到其他领域并对结论进行验证。

关键词：

数据规模合著关系预测图书情报准确率最优指标

分类号：

G353.1(科学、科学研究)

资助基金：

国家自然科学基金 ( 71503125 ) 教育部人文社会科学研究项目 ( 14YJC870025 ) 中央高校基本科研业务费专项 ( 30915013101 )

在线出版日期：

2016-10-14 （万方平台首次上网日期，不代表论文的发表时间）

页数：

6 ( 80-85 )

英文信息

同项目论文