10.3969/j.issn.1673-629X.2008.10.005
一种快速嘴部检测方法在视听语音识别的应用
在改进噪音环境下的语音识别率中,来自于说话人嘴部的可视化语音信息有着显著的作用.介绍了在视听语音识别(AVSR)中的重要组成部分之一:可视化信息的前端设计;描述了一种用于快速处理图像并能达到较高识别率的人脸嘴部检测的机器学习方法,此方法引入了旋转Harr-like特征在积分图像中的应用,在基于AdaBoost学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,最后划分检测区域用于嘴部定位.将上述方法应用于AVSR系统中,基本上达到了对人脸嘴部实时准确的检测效果.
模态、视听语音识别、Harr-like特征、重要区域、积分图像、区域划分
18
TP391.41(计算技术、计算机技术)
上海市科技基金资助项目7A07094
2008-11-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
16-19