10.3969/j.issn.1673-629X.2007.05.046
添加音素持续时间信息到频谱模型的说话人辨认研究
传统的声音识别系统通过短时声音频谱信息来辨识说话人,这种方法在某些条件下具有较好的性能.但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能.在文中,音素持续时间信息被添加到传统模型上,以提高说话人辨识率.频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据.通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题.实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小情况下,音素持续时间信息对说话人辨识率的提高也是有效的.
说话人声音辨识、高斯混合模型、音素持续时间信息
17
TP391.42;TN912.3(计算技术、计算机技术)
2007-06-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
156-159