DOI：10.3969/j.issn.1000-2324.2021.01.025

基于多模态视频描述的中国手语识别

引用

摘要：

计算机视觉是目前我国新一代人工智能科技发展的重要方向,手语识别因其在连续性、复杂场景干扰等问题上的困难,导致其研究不仅可以解决听障人对无障碍信息沟通的真实需要,还可极大的促进视频理解及分析领域的快速发展,从而在安防、智能监控等方面也有很好的落地应用.通过比较国内外多种基于视频描述和分析的手势识别方法,给出了视频手语识别和基于深度学习的视频描述的策略分析.对使用原始视频帧、视频光流和目前先进的姿态估计技术等方法进行了比较,进而提出适用于中国手语视频数据的多模态描述策略、训练模型架构及时空注意力模型.使用具有深度信息辅助的视频描述及训练方法,通过实验验证BLEU-4值可达52.3,较前期使用的基础方法提高约20％.但由于该方法所使用的深度信息在现实情况下并不容易获得,因此研究由手机或电脑摄像头获取的普通RGB视频的描述及识别方法是未来的发展方向.

关键词：手语识别、视频描述、多模态

所属期刊栏目：52

分类号：TP387(计算技术、计算机技术)

资助基金：天津市工业企业发展专项资金项目201807111

在线出版日期：2021-04-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：143-148

英文信息展示

期刊专题