10.20009/j.cnki.21-1106/TP.2021-0724
视觉标签的语义三元组检测模型
本文提出了一种基于视频标签的语音三元组检测模型,目的是从人类语音中识别语义内容三元组,并传递给机器人进行操作.具体来说,本文设计了一个包含语音模块和视频模块的网络框架.在视频模块中,首先利用I3D和Mask R-CNN分别提取动作和物体.随后,两个XGBoost分类器被用于根据动作的类型识别主体物体和受体物体.在提取获得三元组之后,该三元组将被作为软标签用于训练语音模块.在语音模块中,本文引入了多头自注意力模型用于建模语音上下文的相互联系.为了验证方法的有效性,本文将所提出的方法在MPII Cooking 2数据集进行实验,实验结果表明模型能够使用视觉标签作为语音模块的训练标签,并且与其它语音方法相比取得了更优异的性能.最后,该模型被部署到了 UR10e机器人上进行进一步执行验证.
三元组检测、关键词检测、多头自注意力模型、视频标签
44
TP242(自动化技术及设备)
国家自然科学基金;国家自然科学基金;广东省引进创新科研团队计划;广东省科技创新战略专项资金项目
2023-05-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
916-922