10.14132/j.cnki.1673-5439.2023.04.011
基于Transformer的透明物体图像语义分割
由于周围物体和背景区域都能通过透明物体进行透视,同时透明物体也会对周围物体和背景区域进行反射,因此需要借助Transformer这种高效的编解码结构,尤其需要借助Transformer结构中的注意力机制,以便更好地解决透明物体特殊材质的像素级分割任务.由于卷积神经网络通常拥有较小的感受野,因而容易忽略图像的全局特征,而Transformer可以很好地弥补这一缺点.因此,文中提出一种融合卷积神经网络与Transformer的透明物体图像语义分割网络,并设计了一个多头自注意力与卷积结合的注意力机制模块.该网络通过构建基于编解码的特征提取网络和金字塔结构特征融合网络,有效结合上下文信息,并融合多尺度特征,对透明物体轮廓区域做出更为准确的判断.Trans10K-V2数据集的实验结果表明,与其他语义分割方法相比,文中所提网络模型有效地提高了语义分割的平均交并比及准确率.
图像语义分割、Transformer、注意力机制、特征融合
43
TP391.41(计算技术、计算机技术)
江苏省研究生实践创新计划项目;国家自然科学基金
2023-10-17(万方平台首次上网日期,不代表论文的发表时间)
共10页
83-92