DOI：10.11772/j.issn.1001-9081.2021050821

基于改进Mask R-CNN的越南场景文字检测

引用

摘要：

针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络Mask R-CNN的基础上,提出一种针对越南场景文字的检测算法.为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域.针对用常规非极大值抑制(NMS)算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框.使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络(FPN)和区域生成网络(RPN)的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割.大量交叉验证实验和对比实验结果表明,与Mask R-CNN相比,所提算法在不同的交并比(IoU)阈值下都具有更好的准确率与召回率.

关键词：Mask R-CNN;越南场景文字检测;声调符号;模型联合训练;分割模型;重复检测

所属期刊栏目：41

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目;广西自然科学基金资助项目;教育部人文社会科学研究项目;广西学位与研究生教育改革项目

在线出版日期：2022-01-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：3551-3557

英文信息展示

期刊专题