DOI：10.11834/jig.220902

层级语义融合的场景文本检测

引用

摘要：

目的场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想.针对此问题,提出了一种层级语义融合的场景文本检测算法.方法该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息.首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力.然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果.此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性.结果算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0％,相比其他模型提升了 1.0％;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为 88.2％,相比其他模型提升了 1.0％;在 ICDAR 2015(Interna-tional Conference on Document Analysis and Recognition)数据集上,F值为87.0％.结论提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度.

关键词：场景文本、文字检测、全卷积网络(FCN)、卷积神经网络(CNN)、特征融合、注意力机制

所属期刊栏目：28

分类号：TP391.4(计算技术、计算机技术)

在线出版日期：2023-09-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：2343-2355

英文信息展示

期刊专题