DOI：10.11925/infotech.2096-3467.2021.0164

基于词向量的PDF表格抽取研究

引用

摘要：

[目的]解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题.[方法]利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行.[结果]在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果F1值为98.07％,表格内容划分结果F1值超过99％,效果接近需要大量标注语料的深度学习文本分类模型.[局限]所提方法只能抽取关系型表格,且不适用于扫描型PDF文档.[结论]所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题.

关键词：表格抽取;PDF;词向量

所属期刊栏目：5

分类号：G350(情报学、情报工作)

资助基金：本文系国家社会科学基金重大项目项目编号:19ZDA348

在线出版日期：2021-11-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：34-44

英文信息展示

期刊专题