多特征融合的文档图像版面分析

引用

摘要：

目的在文档图像版面分析上,主流的深度学习方法克服了传统方法的缺点,能够同时实现文档版面的区域定位与分类,但大多需要复杂的预处理过程,模型结构复杂.此外,文档图像数据不足的问题导致文档图像版面分析无法在通用的深度学习模型上取得较好的性能.针对上述问题,提出一种多特征融合卷积神经网络的深度学习方法.方法首先,采用不同大小的卷积核并行对输入图像进行特征提取,接着将卷积后的特征图进行融合,组成特征融合模块;然后选取DeeplabV3中的串并行空间金字塔策略,并添加图像级特征对提取的特征图进一步优化;最后通过双线性插值法对图像进行恢复,完成文档版面目标,即插图、表格、公式的定位与识别任务.结果本文采用mIOU (mean intersection over union)以及PA (pixel accuracy)两个指标作为评价标准,在ICDAR 2017 POD文档版面目标检测数据集上的实验表明,提出算法在mIOU与PA上分别达到87.26％和98.10％.对比FCN(fully convolutional networks),提出算法在mIOU与PA上分别提升约14.66％和2.22％,并且提出的特征融合模块对模型在mIOU与PA上分别有1.45％与0.22％的提升.结论本文算法在一个网络框架下同时实现了文档版面多种目标的定位与识别,在训练上并不需要对图像做复杂的预处理,模型结构简单.实验数据表明本文算法在训练数据较少的情况下能够取得较好的识别效果,优于FCN和DeeplabV3方法.

关键词：文档图像处理、版面分析、目标检测、深度学习、语义分割

所属期刊栏目：25

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家自然科学基金项目;广东省特色创新类项目;广东省青年创新人才类项目;江门市科技计划项目;五邑大学青年基金项目

在线出版日期：2020-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：311-320

英文信息展示

期刊专题