基于多模态生成对抗网络和三元组损失的说话人识别
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离.最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份.实验结果表明,该方法能有效地提升说话人识别准确率.
说话人识别、跨模态、生成对抗网络、3元组损失
42
TN912.3;TP391
国家自然科学基金61573168
2020-03-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
379-385