PDF科技论文语义元数据的自动抽取研究

引用

摘要：

在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息.实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果.

关键词：PDF、科技论文、语义元数据、自动抽取

分类号：TP391.43(计算技术、计算机技术)

资助基金：中国科学院国家科学图书馆青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发"和国家社会科学基金项目"机构知识库建设与应用研究"项目07BTQ019的研究成果之一

在线出版日期：2009-07-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：102-106

英文信息展示

期刊专题