R-YOLOv5:自动切割的旋转的文本检测模型

引用

摘要：

YOLOv5模型是目前文本检测较好的模型之一,针对文本目标长度不一,文本轮廓难以精准检测以及受自然场景中文字倾斜、光影的影响文本较难检测的问题,提出了R-YOLOv5(Rotated-YOLOv5)文本检测模型.首先融入基于仿射算法的文本分割模型,将图片的文本区域等比例切割为多个单字符块,解决文本没有闭合轮廓导致的YOLOv5模型锚定框拟合效果不佳的问题;然后使用旋转卷积层、旋转池化层、改进锚定框,提出了加强角度学习的RIoU(Rotated Intersection over Union)损失函数,实现了文本旋转倾斜特征的提取.在ICDAR2019-LSVT上对原模型与改进后的模型进行实验,实验结果显示,R-YOLOv5检测效果有较明显的提升,但由于模型层数加深,训练速率与检测速率相比原模型有小幅降低.相比其他模型,由于YOLOv5自身的优点,R-YOLOv5的检测效果与检测速度均远好于其他模型.

关键词：计算机视觉、目标检测、文本检测、卷积神经网络、旋转倾斜、损失函数、YOLO

所属期刊栏目：49

分类号：TP389.1(计算技术、计算机技术)

在线出版日期：2023-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：625-630

英文信息展示

期刊专题