视觉标签的语义三元组检测模型
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.20009/j.cnki.21-1106/TP.2021-0724

视觉标签的语义三元组检测模型

引用
本文提出了一种基于视频标签的语音三元组检测模型,目的是从人类语音中识别语义内容三元组,并传递给机器人进行操作.具体来说,本文设计了一个包含语音模块和视频模块的网络框架.在视频模块中,首先利用I3D和Mask R-CNN分别提取动作和物体.随后,两个XGBoost分类器被用于根据动作的类型识别主体物体和受体物体.在提取获得三元组之后,该三元组将被作为软标签用于训练语音模块.在语音模块中,本文引入了多头自注意力模型用于建模语音上下文的相互联系.为了验证方法的有效性,本文将所提出的方法在MPII Cooking 2数据集进行实验,实验结果表明模型能够使用视觉标签作为语音模块的训练标签,并且与其它语音方法相比取得了更优异的性能.最后,该模型被部署到了 UR10e机器人上进行进一步执行验证.

三元组检测、关键词检测、多头自注意力模型、视频标签

44

TP242(自动化技术及设备)

国家自然科学基金;国家自然科学基金;广东省引进创新科研团队计划;广东省科技创新战略专项资金项目

2023-05-23(万方平台首次上网日期,不代表论文的发表时间)

共7页

916-922

相关文献
评论
暂无封面信息
查看本期封面目录

小型微型计算机系统

1000-1220

21-1106/TP

44

2023,44(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn