一种大规模说话人辨认方法

引用

摘要：

本发明涉及一种基于2D-Haar音频特征的、适用于大规模说话者的文本无关说话人辨认方法。本发明提出了2D-Haar音频特征的概念和计算方法，首先使用基础音频特征构成音频特征图；进而利用音频特征图提取2D-Haar音频特征，再使用AdaBoost.MH算法完成对2D-Haar音频特征的筛选和说话人分类器的训练；最终使用训练好的说话人分类器实现说话人辨认。与现有技术相比，本发明可以有效地抑制大规模说话人辨认场合下辨认准确率的衰减，具有较高辨认准确率和辨认速度；不仅适用于桌面计算机，也适用于手机、平板电脑等移动计算平台。

专利类型：发明专利

申请/专利号：CN201310074743.9

申请日期：2013-03-08

公开/公告号：CN103258536A

公开/公告日：2013-08-21

主分类号：G10L17/02(2013.01)I

申请/专利权人:北京理工大学

发明/设计人:罗森林;谢尔曼;潘丽敏

主申请人地址:100081 北京市海淀区中关村南大街5号

国别省市代码:北京;11

权利要求：

一种大规模说话人辨认方法，其特征在于，所述方法包括以下步骤：步骤1，获取待辨认说话人（即目标说话人）的语音信号，形成基础语音库S。步骤2，对基础语音库S中的语音进行音频特征积分图计算，形成基础特征库R。步骤3，在基础特征库R的基础上，生成每个目标说话人的训练特征文件集B。步骤4，在步骤3的基础上，提取2D‑Haar音频特征，并进行说话人注册，也就是依次遍历特征文件集B中的k个文件夹，并使用其中的训练特征文件为每个目标说话人训练出单独的“1对余”分类器，最终得到由k个说话人分类器构成的分类器池。步骤5，利用步骤4训练得到的说话人分类器池，对未知说话人的语音文件提取2D‑Haar音频特征，并进行说话人辨认。

专利专题