10.3969/j.issn.2095-2163.2022.11.034
基于Transformer的道路场景分割算法研究
图像语义分割技术作为计算机视觉领域的关键技术之一,可以识别并理解图像中每一个像素的内容,并已应用在自动驾驶、医疗诊断、地理信息系统以及图像搜索等很多场景.相对于深度卷积神经网络,Transformer模型基于纯注意力机制,没有任何卷积层或循环神经网络层.本文在Swin Transformer的基础上进行了改进,提出了一种新的网络结构SwinLab.实验结果表明改进后的SwinLab模型相比于深度卷积神经网络的模型算法以及原Swin Transformer模型的分割精度不相上下,mIoU可达80.1,同时在CityScapes数据集上也进行了对比实验,从而进一步证明了该结构的有效性和泛化性.综上,本文在以Swin Transformer为骨干网络的基础上做了相关工作,从而使模型结构更简单,训练和推理速度更快,且准确率也相当可观.
语义分割、卷积神经网络、Transformer、注意力机制
12
TP181(自动化基础理论)
2022-12-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
204-208,215