10.3969/j.issn.1002-0802.2023.04.006
基于虚拟对抗训练的合成话音检测方法
自动说话人确认(Automatic Speaker Verification,ASV)技术在日常生活中起着重要作用,同时它也面临着语音合成等欺骗攻击的威胁,因此为ASV系统提供一个有效的合成话音检测方法刻不容缓.近年来,检测任务更加侧重于在真实物理环境下对合成话音展开研究.为了提高模型的鲁棒性,引入虚拟对抗训练对检测任务进行数据增强.实验中在前端提取了多个特征,并在后端采用了SE-Res2net50 和ECAPA2D-BL/BG模型.最后还将多个特征,多个模型的打分结果进行融合,提高了总体的检测性能.在逻辑访问场景中,ASVspoof2019 挑战赛评估集的串联成本检测代价(tandem Detection Cost Function,t-DCF)和等错率(Equal Error Rate,EER)分别达到0.018 7 和 0.56%,ASVspoof2021 挑战赛评估集的t-DCF和EER分别达到 0.307 3 和 6.05%.
合成话音检测、虚拟对抗训练、SE-Res2net、Bi-LSTM、Bi-GRU、模型融合
56
TN912.3
2023-07-18(万方平台首次上网日期,不代表论文的发表时间)
共9页
425-433