一种基于张量分解的多声道音频信号压缩方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于张量分解的多声道音频信号压缩方法

引用
本发明公开了一种基于张量分解的多声道音频信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧,并对每帧信号进行时频变换得到频域系数,将所有声道和所有帧序列的频域系数组合,建立三阶张量信号,并对其进行张量分解得到低秩核张量用于编码传输,解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建,对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码,利用声道间和声道内的相关性去处冗余信息,能较大程度提高多声道音频信号的压缩效率。

发明专利

CN201210579570.1

2012-12-27

CN102982805A

2013-03-20

G10L19/008(2013.01)I

北京理工大学

王晶;谢湘;匡镜明

100081 北京市海淀区中关村南大街5号

北京;11

一种基于张量分解的多声道音频信号压缩方法,其特征在于,包括以下步骤:步骤一:在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;步骤二:对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;步骤四:对步骤三构造的三阶张量信号X进行张量分解,即分解为:G×1U(1)×2U(2)×3U(3)    (1)其中U(1)、U(2)、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,U(1)为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为R×O,其中参数O应满足1≤O≤R;U(2)为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为N×P,其中参数P应满足1≤P≤N;U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为S×Q,其中参数Q应满足1≤Q≤S;G为三阶低秩核张量,在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到:G=X×1U(1)T×2U(2)T×3U(3)T    (2)符号T表示伪逆,×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶矩阵乘H×nA的结果是一个大小为I1×I2×…×In‑1×J×In+1×…×IN的N阶张量,其中1≤n≤N;步骤五:对步骤四得到的三阶低秩核张量G进行降维获得一维序列,然后 对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U(2)、U(3)不进行量化编码处理;步骤六:在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G';结合预先训练得到的三个低秩投影矩阵U'(1)、U′(2)、U′(3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为:Y=G′×1U'(1)×2U'(2)×3U'(3)    (4)其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S;步骤七:步骤六得到的R×N×S的三阶张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的N×S系数矩阵,对矩阵的每行的S个数据,分别进行与步骤二相应的时频反变换,得到恢复的每帧音频信号;步骤八:将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M。
相关文献
评论
法律状态详情>>
2013-04-17实质审查的生效
2013-03-20公开
2014-11-19授权
相关作者
相关机构