一种三维度基于改进MFCC特征模型的AI克隆语音源鉴定方法

引用

摘要：

AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击.近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究,而对AI合成语音与样本内容不同的检材的鉴定研究却甚少,相关鉴定内容无法识别.为此,提出了一种三维度基于改进MFCC特征模型对AI克隆语音源进行鉴定.首先对先前研究人员人工分析的AI克隆语音特性进行验证,总结出可识别的"共振峰F5异常活跃"与"能量、共振峰、音高曲线异常突变"的特征.其次基于AI克隆语音的特征运用二阶差分修正MFCC系数并采用"逆差逻辑推演法"将能量、共振峰、音高曲线突变特性进一步量化采样,将其定义为语音鉴定的特征向量三元组.然后以特征向量三元组为输入,运用D-S证据合成规则将三组检材与样本比对的结果融合.最后形成三维度基于改进MFCC特征参量的检材评定模型.人群随机采样实验结果表明,该AI克隆语音源鉴定方法对以同一人为克隆源所合成的AI克隆语音鉴定的平均概率为67.324％,标准差为7.32％,鉴定效果很好.

关键词：AI克隆语音、MFCC特征、三维度语音建模、语音源鉴定

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-11-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：177-184

英文信息展示

期刊专题