运用核聚类和偏最小二乘回归的歌唱声音转换
语音转换是计算机听觉领域的热点问题之一,将歌声运用于语音转换是一种新的研究方向,同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象,而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换,并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数,采用梅尔对数频谱近似( MLSA)滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音,以此提高转换歌声的声音质量。实验结果表明,在少量训练数据时,该方法在相似度和音质方面都有更好的效果,说明在少量训练数据时该方法优于传统的高斯混合模型的方法。
计算机视觉、语音转换、歌唱声音、核聚类、偏最小二乘回归、高斯混合模型、MLSA
11
TN912;TP37
国家自然科学基金资助项目61472393,613031350.
2016-04-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
55-60