10.11959/j.issn.1000-436x.2022142
基于正样本对比与掩蔽重建的自监督语音表示学习
针对现有基于对比预测的自监督语音表示学习方法在训练时需要构建大量负样本,其学习效果依赖于大批次训练,需要耗费大量计算资源的问题,提出了一种仅使用正样本进行语音对比学习的方法,并将其与掩蔽重建任务相结合得到一种多任务自监督语音表示学习方法,在降低训练复杂度的同时提高语音表示学习的性能.其中,正样本对比学习任务,借鉴图像自监督表示学习中SimSiam方法的思想,采用孪生网络架构对原始语音信号进行两次数据增强,并使用相同的编码器进行处理,将一个分支经过一个前向网络,另一个分支使用梯度停止策略,调整模型参数以最大化2个分支输出的相似度.整个训练过程中不需要构造负样本,可采用小批次进行训练,大幅提高了学习效率.使用LibriSpeech语料库进行自监督表示学习,并在多种下游任务中进行微调测试,对比实验表明,所提方法得到的模型在多个任务中均达到或者超过了现有主流语音表示学习模型的性能.
语音表示、自监督学习、无监督学习、孪生网络
43
TN912.34
国家自然科学基金;国家自然科学基金
2022-08-11(万方平台首次上网日期,不代表论文的发表时间)
共9页
163-171