自然场景文本检测与端到端识别:深度学习方法

引用

摘要：

自然场景图像中丰富的文本内容对场景理解有着重要意义,但自然场景文本往往具有极端横纵比、字体风格多变、背景及形状复杂等特点,而传统的文本检测与端到端识别方法存在着模型设计复杂、效率低、适用性不强且耗费成本高等缺点.随着深度学习技术在图像领域的迅速发展,自然场景文本检测与端到端识别方法取得了突破性的进展,其性能和效率得到了显著提高.针对自然场景文本检测与端到端识别方法,梳理了近年来相关的研究工作.首先,根据文本框生成方式的不同,主要从回归候选框和像素分割两个角度来划分自然场景文本检测方法的基本思想,并对各类代表性的方法进行了详细叙述;其次,从端到端识别速度与解耦检测和识别任务的角度对端到端识别方法的技术发展路线进行了归纳总结;然后,介绍了常用的公开文本数据集,并在公开的文本数据集上对各类方法进行了性能对比;最后,对自然场景文本检测与端到端识别的主流研究方向进行了讨论,并阐述了其面临的挑战和未来的发展趋势.

关键词：深度学习、自然场景、文本检测、端到端识别

所属期刊栏目：17

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;广东省自然科学基金项目;广东省自然科学基金项目;广东省普通高校重点研究项目;广东省普通高校重点研究项目;佛山市科技创新项目;广东省教育科学规划课题

在线出版日期：2023-03-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共18页

页码：577-594

英文信息展示

期刊专题