DOI：10.20009/j.cnki.21-1106/TP.2021-0724

视觉标签的语义三元组检测模型

引用

摘要：

本文提出了一种基于视频标签的语音三元组检测模型,目的是从人类语音中识别语义内容三元组,并传递给机器人进行操作.具体来说,本文设计了一个包含语音模块和视频模块的网络框架.在视频模块中,首先利用I3D和Mask R-CNN分别提取动作和物体.随后,两个XGBoost分类器被用于根据动作的类型识别主体物体和受体物体.在提取获得三元组之后,该三元组将被作为软标签用于训练语音模块.在语音模块中,本文引入了多头自注意力模型用于建模语音上下文的相互联系.为了验证方法的有效性,本文将所提出的方法在MPII Cooking 2数据集进行实验,实验结果表明模型能够使用视觉标签作为语音模块的训练标签,并且与其它语音方法相比取得了更优异的性能.最后,该模型被部署到了 UR10e机器人上进行进一步执行验证.

关键词：三元组检测、关键词检测、多头自注意力模型、视频标签

所属期刊栏目：44

分类号：TP242(自动化技术及设备)

资助基金：国家自然科学基金;国家自然科学基金;广东省引进创新科研团队计划;广东省科技创新战略专项资金项目

在线出版日期：2023-05-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：916-922

英文信息展示

期刊专题