DOI：10.16508/j.cnki.11-5866/n.2023.01.006

一种面向缺角文档图像的矫正网络

引用

摘要：

文档图像的变形矫正对提高文档光学字符识别(optical character recognition,OCR)的准确率至关重要.透视倾斜变形文档图像的矫正一般依赖于文档角点的定位,然而目前文档图像矫正算法大都无法准确定位图像边界外的角点,导致缺角图像矫正效果不理想.针对此问题,提出了一种缺角文档图像矫正网络,采用填充缩放的方法将分布在图像边界外的角点映射到图像内,可实现对缺角图像的矫正,并构建了缺角图像数据集.针对角点映射后文档区域相对面积减小、下采样后空间信息丢失严重的问题,对MobileNetV2主干网进行改进设计,提出密集下采样卷积,充分保留空间信息的同时实现下采样;在倒置残差块中增加通道重组操作,提升特征表示能力.在解码器中使用密集上采样卷积进行上采样,确保角点定位的准确性.在SmartDoc QA(仅取146张文档图像)数据集上与5种先进的图像矫正方法进行对比,以平均位移误差(mean displacement error,MDE)指标评估角点坐标的精度,以多尺度结构相似性(multi scale structural similarity,MSSIM)指标评估矫正效果,实验表明,提出的矫正方法在非缺角图像和缺角图像上的MDE指标分别为1.043 5和2.8151,MSSIM指标分别为0.514 4和0.525 7,均优于其他5种方法.

关键词：图像矫正、透视倾斜变形、缺角图像、姿态估计、深度学习

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;北京市自然科学基金资助项目

在线出版日期：2023-04-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：40-47

英文信息展示

期刊专题