DOI：10.11834/jig.220098

分离复杂背景下的文档图像二值化方法

引用

摘要：

目的二值化方法的主要依据是像素的颜色和对比度等低级语义特征,辨别出与文字具有相似低级特征的复杂背景是二值化亟待解决的问题.针对文档图像二值化复杂背景分离问题,提出一种分离文档图像复杂背景的二阶段二值化方法.方法该方法分为易误判像素筛选和二值化分割两个处理阶段,根据两个阶段的分工构建不同结构的两个网络,前者强化对复杂背景中易误判像素识别和分离能力,后者着重文字像素准确预测,以此提升整个二值化方法在复杂背景图像上的处理效果;两个网络各司其职,可在压缩参数量的前提下出色完成各自任务,进一步提高网络效率.同时,为了增强文字目标细节处理能力,提出一种非对称编码—解码结构,给出两种组合方式.结果实验在文本图像二值化比赛(competition on document image binarization,DIBCO)的 DIBCO2016、DIBCO2017以及DIBCO2018数据集上与其他方法进行比较,本文方法在DIBCO2018中FM(F-measure)为92.35％,仅比经过特殊预处理的方法差0.17％,综合效果均优于其他方法;在DIBCO2017和DIBCO2016中FM分别为93.46％和92.13％,综合效果在所有方法中最好.实验结果表明,非对称编码—解码结构二值化分割的各项指标均有不同程度的提升.结论提出的二阶段方法能够有效区分复杂背景,进一步提升二值化效果,并在DIBCO数据集上取得了优异成绩.开源代码网址为https://github.com/wjlbnw/Mask_Detail_Net.

关键词：语义分割、U-Net、文档图像识别、二值化、复杂背景、编码—解码结构、多阶段分割

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

资助基金：国家青年科学基金项目51609193

在线出版日期：2023-08-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：2011-2025

英文信息展示

期刊专题