10.3969/j.issn.1673-629X.2014.12.015
基于PDFBox抽取学术论文信息的实现
为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。
数据挖掘、信息抽取、PDF格式、学术论文
TP39(计算技术、计算机技术)
陕西省自然科学基础研究计划项目2013JM8042
2015-01-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
61-63,68