DOI：10.3969/j.issn.1003-3114.2021.03.018

基于十字感受野网络的场景文本检测

引用

摘要：

现有的场景文本检测方法直接采用面向图像分类任务的网络结构.由于文本目标在纵横比、外观纹理及尺寸上与ImageNet上的自然物体的明显区别,这些分类网络结构不适合于场景文本检测任务.为解决该问题,提出了一种适用于场景文本检测的骨干网络——十字感受野网络(CrossNet).CrossNet的基本元素为十字感受野模块(Cross-Receptive-Field Block,CrossRecepBlock).考虑到场景文本通常是矩形的,在CrossRecepBlock中,用矩形卷积核代替普通的正方形卷积核来指导网络学习更适合场景文本检测的有效感受野;基于文本检测主干网络的宽度非常重要、深度不宜过大的原则,构建了CrossNet.采用CrossNet的EAST方法在准确率上显著超过基于ResNet-50的原始方法,并在ICDAR2015上达到了82.5％的F-score评测结果.

关键词：场景文本检测、卷积神经网络、主干网络结构、十字感受野网络

所属期刊栏目：47

分类号：TP391.4(计算技术、计算机技术)

资助基金：公安部技术研究计划项目;中央高校基本科研业务费专项;国家自然科学基金;国家自然科学基金;国家自然科学基金

在线出版日期：2021-06-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：363-368

英文信息展示

期刊专题