基于编解码器的电力施工场景可控图像字幕生成

引用

摘要：

电力施工场景图像字幕生成采用基于深度学习的编解码技术理解图像信息,并转换为文字描述输出,从而预警安全隐患,丰富了传统图像分析技术的输出形式.传统图像字幕生成方法缺乏可控性且细节描述不充分,针对电力施工场景图像描述的研究匮乏.为此,该文提出一种基于编解码器的可控图像字幕生成优化方法.引入新的特征提取模型,以FVC R-CNN(faster and visual commonsense region-convolutional neural network)模型作为编码器,提取图像的显著特征和视觉常识特征,并改进激活函数以得到改进的基于M-tanh的长短时记忆(M-tanh long short-term memory,MT-LSTM)神经网络用于特征解码,最后通过多分枝决策策略优化输出.在Ubuntu16.04和PyTorch深度学习框架下对电力场景描述数据集进行了训练和测试,实验结果表明图像字幕生成准确率不仅得到显著提高,而且增强了场景描述的可控性,可有力提升电力施工现场的安全管理智能化水平.

关键词：电力施工场景、可控图像字幕、FVC R-CNN模型、MT-LSTM神经网络、激活函数、多分枝决策策略

所属期刊栏目：46

分类号：TM721(输配电工程、电力网及电力系统)

资助基金：国家自然科学基金61802250

在线出版日期：2022-07-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：2572-2580,中插14

英文信息展示

期刊专题