DOI：10.11992/tis.202111036

机器人视觉听觉融合的感知操作系统

引用

摘要：

智能机器人面对复杂环境的操作能力一直是机器人应用领域研究的前沿问题,指称表达是人类对指定对象定位通用的表述方式,因此这种方式常被利用到机器人的交互当中,但是单一视觉模态并不足以满足现实世界中的所有任务.因此本文构建了一种基于视觉和听觉融合的机器人感知操作系统,该系统利用深度学习算法的模型实现了机器人的视觉感知和听觉感知,捕获自然语言操作指令和场景信息用于机器人的视觉定位,并为此收集了 12类的声音信号数据用于音频识别.实验结果表明:该系统集成在UR机器人上有良好的视觉定位和音频预测能力,并最终实现了基于指令的视听操作任务,且验证了视听数据优于单一模态数据的表达能力.

关键词：视觉定位、音频识别、深度学习、视觉感知、听觉感知、视听融合、多模态数据、主动操作

所属期刊栏目：18

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金U1613212

在线出版日期：2023-04-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：381-389

英文信息展示

期刊专题