编码—解码结构的语义分割

引用

摘要：

目的语义分割是计算机视觉中一项具有挑战性的任务,其核心是为图像中的每个像素分配相应的语义类别标签.然而,在语义分割任务中,缺乏丰富的多尺度信息和足够的空间信息会严重影响图像分割结果.为进一步提升图像分割效果,从提取丰富的多尺度信息和充分的空间信息出发,本文提出了一种基于编码—解码结构的语义分割模型.方法运用ResNet-101网络作为模型的骨架提取特征图,在骨架末端附加一个多尺度信息融合模块,用于在网络深层提取区分力强且多尺度信息丰富的特征图.并且,在网络浅层引入空间信息捕获模块来提取丰富的空间信息.由空间信息捕获模块捕获的带有丰富空间信息的特征图和由多尺度信息融合模块提取的区分力强且多尺度信息丰富的特征图将融合为一个新的信息丰富的特征图集合,经过多核卷积块细化之后,最终运用数据依赖的上采样(DUpsampling)操作得到图像分割结果.结果此模型在2个公开数据集(Cityscapes数据集和PASCAL VOC 2012数据集)上进行了大量实验,验证了所设计的每个模块及整个模型的有效性.新模型与最新的10种方法进行了比较,在Cityscapes数据集中,相比于RefineNet模型、DeepLabv2-CRF模型和LRR(Laplacian reconstruction and refinement)模型,平均交并比(mIoU)值分别提高了0.52％、3.72％和4.42％;在PASCAL VOC 2012数据集中,相比于Piecewise模型、DPN(deep parsing network)模型和GCRF(Gaussion conditional random field network)模型,mIoU值分别提高了6.23％、7.43％和8.33％.结论本文语义分割模型,提取了更加丰富的多尺度信息和空间信息,使得分割结果更加准确.此模型可应用于医学图像分析、自动驾驶、无人机等领域.

关键词：语义分割、克罗内克卷积、多尺度信息、空间信息、注意力机制、编码—解码结构、Cityscapes数据集、PASCAL VOC 2012数据集

所属期刊栏目：25

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家电网总部科技项目SGAHDK00DJJS1900076

在线出版日期：2020-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：255-266

英文信息展示

期刊专题