DOI：10.11772/j.issn.1001-9081.2021101749

面向混叠文字检测的单向投影Transformer方法

引用

摘要：

针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测.首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化.在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score(IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用.

关键词：计算机视觉、深度学习、场景文字检测、混叠文字、投影、Transformer算法

所属期刊栏目：42

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家自然科学基金61773297

在线出版日期：2022-12-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：3686-3691

英文信息展示

期刊专题