DOI：10.6041/j.issn.1000-1298.2023.09.030

基于多头自注意力机制的茶叶采摘点语义分割算法

引用

摘要：

茶叶采摘点定位是茶叶选择性采摘的关键技术之一,在茶树采摘场景中,存在采摘点尺度小、背景干扰大、光照情况复杂等问题,导致准确分割茶叶采摘点成为难题.本研究针对茶园场景下采摘点精确分割问题,构建了一种基于多头自注意力机制结合多尺度特征融合的语义分割算法——RMHSA-NeXt.首先使用ConvNeXt卷积神经网络提取图像特征;其次构造基于残差和多头自注意力机制的注意力模块,将模型注意力集中于分割目标,增强重要特征的表达;再次通过多尺度结构(Atrous spatial pyramid pooling,ASPP)将不同尺度的特征进行融合,在其中针对采摘点特性,在融合过程中使用条状池化(Strip pooling),减少无用特征的获取;最后通过卷积以及上采样等操作完成信息的解码,得出分割结果.试验表明,茶园环境下该模型可以对采摘点进行有效分割,模型的像素准确率达到75.20％,平均区域重合度为70.78％,运行速度达到8.97 f/s.基于相同测试集将本文模型与HRNet V2、EfficientUNet++、DeeplabV3+、BiSeNet V2模型进行对比,结果表明相比于其他模型同时具有准确性高、推理速度快、参数量小等优点,能够较好地平衡精度与速度指标.本文的研究成果可以为精准定位茶叶采摘点提供有效可靠的参考.

关键词：茶叶采摘点、语义分割、注意力机制、多尺度结构

所属期刊栏目：54

分类号：TP391.9(计算技术、计算机技术)

资助基金：国家重点研发计划2021YFD1601102

在线出版日期：2023-10-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：297-305

英文信息展示

期刊专题