一种增量式学习的语音字典构造方法
爆炸式增长的语音数据为存储与传输带来极大困难, 现有方法难以实时应对海量语音频域数据. 因此本文提出一种增量式学习的语音字典构造方法, 该方法先将语音时域信号经短时傅里叶变换处理后转换为各窗频谱幅值, 再将高维空间向量投影到低维空间, 并以字典中的少数基向量线性拟合当前窗向量. 进而通过存储基向量的标识和拟合系数完成对当前窗向量的存储, 把无法拟合的窗向量经处理后加入字典, 实现增量式学习. 解压过程依据用户请求将字典中指定条目经线性拟合实现. 实验结果表明, 本方法能大幅度压缩语音频谱包络, 适用于受带宽限制下实时高采样率的流式语音数据, 与同类算法相比, 在保证还原质量的情况下, 能对信号的存储空间以及传输带宽进行大幅度的压缩.
语音压缩、语音解压、实时处理、流式数据、增量学习、稀疏字典学习
35
TP301(计算技术、计算机技术)
国家自然科学基金资助项目61402118,61673123,61603100,61702110;广东省科技计划项目2015B090901016,2016B010108007;广东省教育厅项目粤教高函〔2018〕1号,粤教高函〔2015〕113号,粤教高函〔2014〕97号;广州市科技计划项目201604020145,2016201604030034,201508010067,201604046017
2018-06-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
29-36