10.3969/j.issn.1673-629X.2023.04.012
面向自然街景改进的文本检测
近年来,随着深度学习的发展,在自然街景下的文本检测取得了巨大的进步,但在多方向和弯曲文本及对比度低的文本检测中的效果仍不理想.因此,针对弯曲文本和对比度低的文本的检测问题,提出了一种融合多尺度模块的文本检测方法,并通过检测效果的提升,提高端到端文本识别的识别效果.针对RFB(Receptive Field Block)模块在下采样后局部信息丢失的问题,在RFB模块中嵌入极化自注意力(Polarized Self-Attention)机制以改进RFB来提取有效文本特征,提高特征图表征效果.针对特征金字塔(FPN)提取的特征不足、感受野小的问题,将改进的RFB模块嵌入特征金字塔(FPN)模块以增强特征提取融合.针对特征分布不确定性及远距离特征融合效果不佳的问题,引入条形池化(Strip Pooling)模块,进而提升检测方法的鲁棒性.在公开数据集Total-Text上的实验结果表明,该算法的F-measure值在端到端文本识别没有词汇表的情形下与目前高效的MaskTextSpotterV3 相比高了0.3 百分点,而在有词汇表的情形下则高出了0.2 百分点;而在仅文本检测的情形下,该方法也有较为良好的表现.
文本检测、特征金字塔、极化自注意力、RFB模块、条形池化模块
33
TP391.4(计算技术、计算机技术)
国家自然科学基金61802204
2023-04-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
82-88