基于短时连续非负矩阵分解的语音时长调整方法

引用

摘要：

本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法，该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵；保持基矩阵不变，按语音时长调整比例，对编码矩阵进行线性内插；通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱；最后，利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能，改善了时长调整后语音的质量。

专利类型：发明专利

申请/专利号：CN201210335362.7

申请日期：2012-09-11

公开/公告号：CN102855884A

公开/公告日：2013-01-02

主分类号：G10L21/04(2013.01)I

申请/专利权人:中国人民解放军理工大学

发明/设计人:张雄伟;吴海佳;黄建军;陈卫卫;赵改华;李铁南

主申请人地址:210007 江苏省南京市白下区海福巷1号

专利代理机构:南京理工大学专利中心 32203

代理人:唐代盛

国别省市代码:江苏;32

权利要求：

一种基于短时连续非负矩阵分解的语音时长调整方法，其特征在于将一段语音资料调整出不同的播放速度，包括如下步骤：第一步，获取原语音段y(n)的幅度谱M，并对M进行短时连续非负矩阵分解，获得基矩阵A与编码矩阵X；第二步，对编码矩阵X按时长调整比例进行线性内插，获得内插后的新编码矩阵第三步，由基矩阵A与新编码矩阵合成新幅度谱即第四步，使用波形估计算法从迭代重构时长调整后的语音段FDA00002121667300011.jpg,FDA00002121667300012.jpg,FDA00002121667300013.jpg,FDA00002121667300014.jpg,FDA00002121667300015.jpg,FDA00002121667300016.jpg

专利专题