基于深度学习的场景文本检测与识别
针对复杂场景下文本识别流程复杂繁琐、适应性差、准确度低等缺点,本文提出一种复杂场景下文本检测和识别的新方法.该方法由文本区域检测网络及文本识别网络构成,文本区域检测网络为改进的PSENet,将PSENet的骨干网络改为ResNeXt-101,在特征提取过程中加入可微二值化操作来优化分割网络,不仅简化了后处理,而且提高了文本检测的性能.将卷积神经网络和加入聚合交叉熵损失的长短时记忆网络组成文本识别网络,聚合交叉熵的引入提高了文本识别的准确性.本文在两个数据集上进行验证,实验结果表明,两个网络模型融合后准确率最高达到95.6%,优于改进之前的方法.该方法能有效地检测和识别任意文本实例,具有很好的实用性.
可微二值化;聚合交叉熵;文本检测;文本识别
30
科技部创新方法工作专项2015IM010300
2021-08-26(万方平台首次上网日期,不代表论文的发表时间)
共7页
179-185