DOI：10.3969/j.issn.2095-2163.2022.11.034

基于Transformer的道路场景分割算法研究

引用

摘要：

图像语义分割技术作为计算机视觉领域的关键技术之一,可以识别并理解图像中每一个像素的内容,并已应用在自动驾驶、医疗诊断、地理信息系统以及图像搜索等很多场景.相对于深度卷积神经网络,Transformer模型基于纯注意力机制,没有任何卷积层或循环神经网络层.本文在Swin Transformer的基础上进行了改进,提出了一种新的网络结构SwinLab.实验结果表明改进后的SwinLab模型相比于深度卷积神经网络的模型算法以及原Swin Transformer模型的分割精度不相上下,mIoU可达80.1,同时在CityScapes数据集上也进行了对比实验,从而进一步证明了该结构的有效性和泛化性.综上,本文在以Swin Transformer为骨干网络的基础上做了相关工作,从而使模型结构更简单,训练和推理速度更快,且准确率也相当可观.

关键词：语义分割、卷积神经网络、Transformer、注意力机制

所属期刊栏目：12

分类号：TP181(自动化基础理论)

在线出版日期：2022-12-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：204-208,215

英文信息展示

期刊专题