10.3969/j.issn.1008-0821.2020.01.012
大规模科技文献深度解析和检索平台构建
[目的/意义]在信息检索、 科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用.随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段.但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用.[方法/过程]在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台.[结果/结论]引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度.
全文引文分析、信息抽取、信息检索、Spark
40
TP393(计算技术、计算机技术)
北京市财政项目"情报快速生产线建设Ⅰ期"PXM2017_178214_000005;北京市科学技术情报研究所改革与发展专项2018
2020-01-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
110-115