10.3969/j.issn.1003-3513.2009.02.017
PDF科技论文语义元数据的自动抽取研究
在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息.实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果.
PDF、科技论文、语义元数据、自动抽取
TP391.43(计算技术、计算机技术)
中国科学院国家科学图书馆青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发"和国家社会科学基金项目"机构知识库建设与应用研究"项目07BTQ019的研究成果之一
2009-07-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
102-106