具有离散对象的音频的分层编码

引用

摘要：

本公开涉及具有离散对象的音频的分层编码。具有第一组高保真度立体声响复制音频分量的第一层数据能够被解码，其中该第一组高保真度立体声响复制音频分量是基于环境和一个或多个基于对象的音频信号生成的。具有该一个或多个基于对象的音频信号中的至少一个基于对象的音频信号的第二层数据被解码。从该第一组高保真度立体声响复制音频分量中减去该基于对象的音频信号中的一个基于对象的音频信号。渲染所得的高保真度立体声响复制音频分量以生成第一组音频声道。一个或多个基于对象的音频信号被空间地渲染以生成第二组音频声道。其他方面也有所描述并受权利要求书保护。

专利类型：发明专利

申请/专利号：CN202010824443.8

申请日期：2020-08-17

公开/公告号：CN112562696A

公开/公告日：2021-03-26

主分类号：G10L19/008(2013.01)

申请/专利权人:苹果公司

发明/设计人:D·森;F·鲍姆加特;J·O·玛丽玛

主申请人地址:美国加利福尼亚州

专利代理机构:北京市金杜律师事务所

代理人:黄倩

国别省市代码:美国;US

权利要求：

1.一种用于解码分层音频的方法，包括：从由上游设备生成的比特流解码具有第一组高保真度立体声响复制音频分量的第一层数据，所述第一组高保真度立体声响复制音频分量是基于环境和一个或多个基于对象的音频信号而生成的；从所述比特流解码具有所述一个或多个基于对象的音频信号中的至少一个基于对象的音频信号的第二层数据；从所述第一组高保真度立体声响复制音频分量减去所述一个或多个基于对象的音频信号中的所述至少一个基于对象的音频信号，并渲染所得的第一组高保真度立体声响复制音频分量以生成第一组音频声道；空间渲染所述一个或多个基于对象的音频信号以生成第二组音频声道；组合所述第一组音频声道和所述第二组音频声道，所组合的音频声道用于驱动回放设备的多个扬声器。 2.根据权利要求1所述的方法，还包括基于带宽将请求传送给所述上游设备，以在所述比特流中包括所述第二层数据。 3.根据权利要求1所述的方法，其中所述第二层数据包括不与所述第二层的所述一个或多个基于对象的音频信号中的所述至少一个基于对象的音频信号混合的第二组高保真度立体声响复制音频分量，并且所述方法还包括将所述第二组高保真度立体声响复制音频分量级联到所述第一组高保真度立体声响复制音频分量。 4.根据权利要求1所述的方法，还包括：基于带宽向所述上游设备传送请求以在所述比特流中包括第三层数据；以及对在所述比特流中接收的所述第三层数据进行解码，所述第三层包括所述一个或多个基于对象的音频信号中的至少另一个基于对象的音频信号或第三组高保真度立体声响复制音频分量。 5.根据权利要求1所述的方法，还包括基于所述回放设备的设备能力向上游设备传送请求，以包括所述比特流中的所述第二层数据、或附加增强层。 6.根据权利要求5所述的方法，其中所述设备能力包括以下中的一者或多者：近场回放能力、计算能力、声学回放能力、在高度范围处渲染声音的能力、或以环绕格式渲染声音的能力。 7.根据权利要求1所述的方法，还包括基于收听者的观看位置、所述收听者所面向的方向、或所述收听者已指示的方向向上游设备传送请求以包括所述比特流中的所述第二层数据、或附加增强层。 8.根据权利要求1所述的方法，还包括基于优选位置向上游设备传送请求以包括所述比特流中的所述第二层数据、或附加增强层。 9.根据权利要求1所述的方法，其中所述第一层数据包括所述一个或多个基于对象的音频信号中不与所述第一组高保真度立体声响复制音频分量混合的一个基于对象的音频信号。 10.一种用于对分层音频比特流进行编码的方法，包括：基于环境和一个或多个基于对象的音频信号生成第一组高保真度立体声响复制音频分量；将具有所述第一组高保真度立体声响复制音频分量的第一层编码到比特流中；以及将具有所述一个或多个基于对象的音频信号中的至少一者的第二层编码到所述比特流中。 11.根据权利要求10所述的方法，还包括在所述第二层中编码第二组高保真度立体声响复制音频分量，所述第二组高保真度立体声响复制音频分量中的每个分量具有比所述第一组高保真度立体声响复制音频分量中的每个分量更高的阶。 12.根据权利要求10所述的方法，其中所述第一组高保真度立体声响复制音频分量包括全指向(W)音频分量、在第一方向(X)上对准的第一双指向音频分量、在第二方向(Y)上对准的第二双指向音频分量和在第三方向(Z)上对准的第三双指向音频分量，并且所述比特流的所述第一层不包含其他编码的高保真度立体声响复制音频分量。 13.根据权利要求10所述的方法，其中所述第一组高保真度立体声响复制音频分量包括全指向(W)音频分量、一阶高保真度立体声响复制音频分量和二阶高保真度立体声响复制音频分量，并且所述比特流的所述第一层不包含其他编码的高保真度立体声响复制音频分量。 14.根据权利要求10所述的方法，其中生成所述第一组高保真度立体声响复制音频分量包括将所述一个或多个基于对象的音频信号转换成具有所述基于对象的音频的高保真度立体声响复制音频分量，以及将a)具有所述基于对象的音频的所述高保真度立体声响复制音频分量与b)具有所述环境的高保真度立体声响复制音频分量组合。 15.根据权利要求14所述的方法，其中所组合的环境和所述基于对象的高保真度立体声响复制音频分量被截短以移除阶大于阈值的高保真度立体声响复制音频分量，并且剩余的高保真度立体声响复制音频分量是在所述比特流的所述第一层中编码的所述第一组高保真度立体声响复制音频分量。 16.根据权利要求10所述的方法，其中所述比特流包括指示以下项的元数据：a)能够在所述比特流中被编码和传输的一个或多个可选层，以及b)所述可选层中的每个可选层中的高保真度立体声响复制音频分量或音频对象。 17.根据权利要求10所述的方法，其中在下游设备处，从所述第一组高保真度立体声响复制音频分量中减去所述一个或多个基于对象的音频信号中的所述至少一个基于对象的音频信号，并且所得的一组高保真度立体声响复制音频分量由高保真度立体声响复制渲染器渲染到第一组回放声道中；所述一个或多个基于对象的音频信号中的所述至少一者被空间地渲染到第二组回放声道中；并且所述第一组回放声道和所述第二组回放声道被组合成用于驱动多个扬声器的多个扬声器声道。 18.根据权利要求10所述的方法，其中所述第一组高保真度立体声响复制音频分量包括仅具有全指向(W)分量的第一子层。 19.根据权利要求18所述的方法，其中所述第一组高保真度立体声响复制音频分量包括第二子层，所述第二子层具有 a)三个高保真度立体声响复制音频分量的加和，包括a1)在第一方向上对准的第一双指向音频分量、a2)在第二方向上对准的第二双指向音频分量和a3)在第三方向上对准的第三双指向音频分量；以及 b)基于所述三个高保真度立体声响复制音频分量生成的一个或多个参数。 20.根据权利要求19所述的方法，其中所述第一组高保真度立体声响复制音频分量包括第三层，所述第三层具有所述三个高保真度立体声响复制音频分量中的在所述第二子层中加和的两个高保真度立体声响复制音频分量。 21.根据权利要求20所述的方法，其中所述一个或多个参数包括在所述第二子层中加和的所述三个高保真度立体声响复制音频分量之间的相关性、所述三个高保真度立体声响复制音频分量之间的级别差异、或所述三个高保真度立体声响复制音频分量之间的相位差。 22.根据权利要求21所述的方法，其中将加权系数应用于所述三个高保真度立体声响复制音频分量中的每个分量以优化所述三个分量的加和。 23.根据权利要求10所述的方法，其中只有在带宽满足阈值的情况下，或者在接收到来自下游设备的请求的情况下，才在所述比特流中编码所述第二层，并且关于是否要在所述比特流中编码所述第二层的确定能够从一个音频帧改变为另一个音频帧。 24.根据权利要求10所述的方法，其中在所述比特流中编码各自具有相应组高保真度立体声响复制音频分量的附加层，每个附加层具有与前一层相同或更高阶的高保真度立体声响复制音频分量。 25.一种音频系统，包括：处理器；多个扬声器；以及存储有指令的非暂态计算机可读存储器，所述指令在由所述处理器执行时使所述处理器执行操作，所述操作包括：从由上游设备生成的比特流解码具有第一组高保真度立体声响复制音频分量的第一层数据，所述第一组高保真度立体声响复制音频分量是基于环境和一个或多个基于对象的音频信号而生成的；从所述比特流解码具有所述一个或多个基于对象的音频信号中的至少一个基于对象的音频信号的第二层数据；从所述第一组高保真度立体声响复制音频分量减去所述一个或多个基于对象的音频信号中的所述至少一个基于对象的音频信号，并渲染所得的第一组高保真度立体声响复制音频分量以生成第一组音频声道；空间渲染所述一个或多个基于对象的音频信号以生成第二组音频声道；组合所述第一组音频声道和所述第二组音频声道，所组合的音频声道用于驱动所述多个扬声器。 26.根据权利要求25所述的方法，还包括基于带宽将请求传送给所述上游设备，以在所述比特流中包括所述第二层数据。 27.根据权利要求26所述的方法，其中所述第二层数据包括第二组高保真度立体声响复制音频分量，并且所述方法还包括将所述第二组高保真度立体声响复制音频分量级联到所述第一组高保真度立体声响复制音频分量。 28.根据权利要求25所述的方法，还包括：基于带宽向所述上游设备传送请求以在所述比特流中包括第三层数据；以及对在所述比特流中接收的所述第三层数据进行解码，所述第三层包括所述一个或多个基于对象的音频信号中的至少另一个基于对象的音频信号或第三组高保真度立体声响复制音频分量。

专利专题