DOI：10.16208/j.issn1000-7024.2023.03.036

基于自适应注意力的任意形状场景文本检测

引用

摘要：

大量基于卷积神经网络的场景文本检测方法对于密集的长文本容易检测不全,且泛化能力较差.针对这些问题,提出一种面向自底向上的场景文本检测方法.使用自适应通道注意力机制(ACA),通过局部跨通道交互获得更具代表性的文本特征,提高深度卷积神经网络的性能;利用特征增强金字塔(FPEM)融合低层和高层信息进一步增强不同尺度的特征;为解决长文本尺度变化问题,提出一种加权感知损失(WAL),通过调整不同大小的文本实例的权重来增强鲁棒性.实验在CTW1500及MSRA-TD500标准数据集上验证了该方法的优越性.

关键词：场景文本检测、自底向上、自适应注意力、特征增强金字塔、加权感知损失、任意形状、长文本

所属期刊栏目：44

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家自然科学基金;江苏省自然科学基金;江苏省研究生培养创新工程基金项目

在线出版日期：2023-05-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：901-907

英文信息展示

期刊专题