10.11772/j.issn.1001-9081.2021101749
面向混叠文字检测的单向投影Transformer方法
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测.首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化.在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score(IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用.
计算机视觉、深度学习、场景文字检测、混叠文字、投影、Transformer算法
42
TP391.4(计算技术、计算机技术)
国家自然科学基金61773297
2022-12-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
3686-3691