DOI：10.11772/j.issn.1001-9081.2019040757

基于角度间隔嵌入特征的端到端声纹识别模型

引用

摘要：

针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型.该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密.在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9％和30％;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9％和45.3％.实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征.

关键词：声纹识别、端到端模型、损失函数、卷积神经网络、深度说话人嵌入

所属期刊栏目：39

分类号：TN912.34;TP391.42

资助基金：国家重点研发计划项目2017YFB1400704

在线出版日期：2019-11-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：2937-2941

英文信息展示

期刊专题