10.3772/j.issn.1000-0135.2019.04.006
基于机器视觉的PDF学术文献结构识别
PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便.本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将PDF文件中的视觉对象和文本对象进行映射,获得内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到PDF文档的物理结构和逻辑结构.该方法以直观的方式克服了其他PDF解析方法需要大量人工特征构建或大规模语料训练、难以识别公式表格等缺点,并成功地对ACL(As-sociation for Computational Linguistics)的论文集进行了结构识别和全文抽取.
PDF、学术文献、机器视觉、结构识别
38
2019-05-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
384-390