基于声音与视觉特征多级融合的鱼类行为识别模型U-FusionNet-ResNet50+SENet

引用

摘要：

为解决在光线昏暗、声音与视觉噪声干扰等复杂条件下,单模态鱼类行为识别准确率和召回率低的问题,提出了基于声音和视觉特征多级融合的鱼类行为识别模型U-FusionNet-ResNet50+SENet,该方法采用ResNet50模型提取视觉模态特征,通过MFCC+RestNet50模型提取声音模态特征,并在此基础上设计一种U型融合架构,使不同维度的鱼类视觉和声音特征充分交互,在特征提取的各阶段实现特征融合,最后引入SENet构成关注通道信息特征融合网络,并通过对比试验,采用多模态鱼类行为的合成加噪试验数据验证算法的有效性.结果表明:U-FusionNet-ResNet50+SENet对鱼类行为识别准确率达到93.71％,F1值达到93.43％,召回率达到92.56％,与效果较好的已有模型Intermediate-feature-level deep model相比,召回率、F1值和准确率分别提升了2.35％、3.45％和3.48％.研究表明,所提出的U-FusionNet-ResNet50+SENet识别方法,可有效解决单模态鱼类行为识别准确率低的问题,提升了鱼类行为识别的整体效果,可以有效识别复杂条件下鱼类的游泳、摄食等行为,为真实生产条件下的鱼类行为识别研究提供了新思路和新方法.

关键词：行为识别、深度学习、多模态融合、U-FusionNet、ResNet50、SENet

所属期刊栏目：38

分类号：S932.2;TP391(水产资源)

资助基金：辽宁省教育厅重点科研项目;国家自然科学基金

在线出版日期：2023-05-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：348-356

英文信息展示

期刊专题