使用信号白化作为预处理的多信号音频编码

引用

摘要：

用于编码至少三个音频信号的多信号编码器包括：信号预处理器(100)，用于单独地预处理每个音频信号以获得至少三个经预处理的音频信号，其中，预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化；自适应联合信号处理器(200)，用于对该至少三个经预处理的音频信号执行处理，以获得至少三个经联合处理的信号或者未处理的信号和至少两个经联合处理的信号；信号编码器(300)，用于对每个信号进行编码以获得一个或多个经编码的信号；以及输出接口(400)，用于发送或存储经编码的多信号音频信号，该经编码的多信号音频信号包括该一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。

专利类型：发明专利

申请/专利号：CN201980056603.4

申请日期：2019-06-27

公开/公告号：CN112639967A

公开/公告日：2021-04-09

主分类号：G10L19/008(2006.01)

申请/专利权人:弗劳恩霍夫应用研究促进协会

发明/设计人:埃伦尼·福托普楼;马库斯·马特拉斯;萨沙·迪克;戈兰·马尔科维奇;帕拉维·马本;斯里坎斯·科塞;斯特凡·拜尔;萨沙·迪施;于尔根·赫勒

主申请人地址:德国慕尼黑

专利代理机构:中科专利商标代理有限责任公司

代理人:潘剑颖

国别省市代码:德国;DE

权利要求：

1.一种用于编码至少三个音频信号的多信号编码器，包括：信号预处理器(100)，用于单独地预处理每个音频信号以获得至少三个经预处理的音频信号，其中，所述预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化；自适应联合信号处理器(200)，用于对所述至少三个经预处理的音频信号执行处理，以获得至少三个经联合处理的信号或者未处理的信号和至少两个经联合处理的信号；信号编码器(300)，用于对每个信号进行编码以获得一个或多个经编码的信号；以及输出接口(400)，用于发送或存储经编码的多信号音频信号，所述经编码的多信号音频信号包括所述一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。 2.根据权利要求1所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为对所述至少三个经预处理的音频信号执行宽带能量归一化(210)，使得每个经预处理的音频信号都具有归一化的能量，以及其中，所述输出接口(400)被配置为包括每个经预处理的音频信号的宽带能量归一化值(534)来作为进一步的边信息。 3.根据权利要求2所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为：计算(212)关于经预处理的音频信号的平均能量的信息；计算(211)关于每个经预处理的音频信号的能量的信息，以及基于所述关于平均能量的信息和关于特定的经预处理的音频信号的能量的信息，计算(213、214)所述能量归一化值。 4.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为根据平均能量和特定的经预处理的音频信号的能量来计算(213、214)该经预处理的音频信号的缩放比例(534b)，以及其中，所述自适应联合信号处理器(200)被配置用于确定标记(534a)，所述标记指示所述缩放比例是用于放大还是缩小，并且其中，每个信号的标记被包括在经编码的信号中。 5.根据权利要求4所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为将所述缩放比例量化(214)到相同的量化范围，而与缩放是放大还是缩小无关。 6.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为：相对于参考能量来对每个经预处理的音频信号进行归一化(210)以获得至少三个归一化信号；计算(220)所述至少三个归一化信号中的每个可能的归一化信号对的互相关值；选择(229)具有最高互相关值的信号对；确定(232a)所选择的信号对的联合立体声处理模式；以及根据所确定的联合立体声处理模式来对所选择的信号对进行联合立体声处理(232b)，以获得经处理的信号对。 7.根据权利要求6所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为应用级联信号对预处理，或者其中，所述自适应联合信号处理器(200)被配置为应用非级联信号对处理，其中，在所述级联信号对预处理中，经处理的信号对中的信号在进一步的迭代步骤中是可选择的，所述进一步的迭代步骤由以下操作组成：计算更新的互相关值，选择具有最高互相关值的信号对，确定所选择的信号对的联合立体声处理模式，以及根据所确定的联合立体声处理模式对所选择的信号对进行联合立体声处理，或者其中，在所述非级联信号对处理中，经处理的信号对中的信号在以下操作中是不可选择的：附加选择具有最高互相关值的信号对，确定所选择的信号对的联合立体声处理模式，以及根据所确定的联合立体声处理模式对所选择的信号对进行联合立体声处理。 8.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为确定作为在成对处理过程之后剩余的信号而要被单独地编码的信号，以及其中，所述自适应联合信号处理器(200)被配置为在执行所述成对处理过程之前修改应用于该信号的能量归一化，例如在执行所述成对处理过程之前使应用于该信号的能量归一化恢复原状(237)或者至少部分地恢复原状。 9.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为针对要由所述信号编码器(300)处理的每个信号确定比特分配信息(536)，其中，所述输出接口(400)被配置为将每个信号的比特分配信息(536)引入到经编码的信号中。 10.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于计算(282)要由所述信号编码器(300)处理的每个信号的信号能量信息，计算(284)要由所述信号编码器(300)编码的所述多个信号的总能量；基于所述信号能量信息和所述总能量信息来计算(286)每个信号的比特分配信息(536)，以及其中，所述输出接口(400)被配置为针对每个信号将所述比特分配信息引入到经编码的信号中。 11.根据权利要求10所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为：可选地向每个信号指派(290)初始数量的比特，基于所述比特分配信息指派(291)多个比特，可选地执行(292)进一步的精炼步骤，或可选地执行(292)最终捐赠步骤，以及其中，所述信号编码器(300)被配置为使用每个信号的所指派的比特来执行信号编码。 12.根据前述权利要求中的一项所述的多信号编码器，其中，所述信号预处理器(100)被配置为针对每个音频信号执行：时间到频谱的转换操作(108、110、112)，以获得每个音频信号的频谱；针对每个信号频谱的时间噪声成形操作(114a，114b)和/或频域噪声成形操作(116)，以及其中，所述信号预处理器(100)被配置为在所述时间噪声成形操作和/或所述频域噪声成形操作之后将信号频谱馈送给所述自适应联合信号处理器(200)，以及其中，所述自适应联合信号处理器(200)被配置为对接收到的信号频谱执行联合信号处理。 13.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为针对所选择的信号对中的每个信号，确定：用于诸如L/R的全频带分离编码模式的必要比特率或用于诸如M/S的全频带联合编码模式的必要比特率，或者用于诸如M/S的频带方式联合编码模式的比特率加上用于诸如M/S掩码的频带方式信令的必要比特，针对信号对的所有频带，将分离编码模式或联合编码模式确定为特定模式，这是当大部分频带已经被确定用于所述特定模式，而少于所有频带的10％的少部分频带已经被确定为该另一编码模式时的情况；或者确定需要最少量比特的编码模式，以及其中，所述输出接口(400)被配置为将指示包括到经编码的信号中，所述指示指出将所述特定模式用于帧的所有频带，而不是将编码模式掩码用于所述帧。 14.根据前述权利要求中的一项所述的多信号编码器，其中，所述信号编码器(300)包括用于每个单独信号或跨两个或更多个信号的速率回路处理器，所述速率回路处理器被配置用于接收和使用针对特定信号或针对两个或更多个信号的比特分配信息(536)。 15.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为自适应地选择用于联合编码的信号对，或者其中，所述自适应联合信号处理器(200)被配置用于针对每个所选择的信号对来确定频带方式中/边编码模式、全频带中/边编码模式或全频带左/右编码模式，并且其中，所述输出接口(400)被配置用于将所选择的编码模式作为边信息(532)指示在所述经编码的多信号音频信号中。 16.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于：当以中/边模式或以左/右模式进行编码时，基于每个频带中的估计比特率来形成频带方式中/边决定与左/右决定的对比，并且其中，最终联合编码模式是基于频带方式中/边与左/右决定的对比的结果确定的。 17.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于执行(260)频谱带复制处理或智能间隙填充处理，以用于确定用于所述频谱带复制处理或所述智能间隙填充处理的参数化边信息，并且其中，所述输出接口(400)被配置用于将频谱带复制或智能间隙填充边信息(532)作为附加边信息包括在经编码的信号中。 18.根据权利要求18所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于对经编码的信号对执行立体声智能间隙填充处理，并且附加地，对要被单独地编码的至少一个信号执行单信号智能间隙填充处理。 19.根据前述权利要求中的一项所述的多信号编码器，其中，所述至少三个音频信号包括低频增强信号，并且其中，所述自适应联合信号处理器(200)被配置为应用信号掩码，所述信号掩码指示自适应联合信号处理器(200)将针对哪些信号是激活的，并且其中，所述信号掩码指示所述低频增强信号将不会在所述至少三个经预处理的音频信号的成对处理中使用。 20.根据权利要求1至5中一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为计算信号的MDCT频谱的能量来作为关于该信号的能量的信息，或者计算所述至少三个经预处理的音频信号的MDCT频谱的平均能量来作为关于所述至少三个经预处理的音频信号的平均能量的信息。 21.根据权利要求1至5中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于基于特定信号的能量信息和关于所述至少三个音频信号的平均能量的能量信息来计算(213)每个信号的缩放因子，其中，所述自适应联合信号处理器(200)被配置用于量化(214)所述缩放比例，以获得经量化的缩放比例值，所述经量化的缩放比例值被用来导出用于包括在经编码的信号中的每个信号的缩放比例的边信息，以及其中，所述自适应联合信号处理器(200)被配置为从所述经量化的缩放比例值中导出经量化的缩放比例，其中，在被用于经缩放的信号与另一对应缩放的信号的成对处理之前，经预处理的音频信号使用所述经量化的缩放比例进行缩放。 22.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于计算(221)可能的信号对的归一化信号间互相关值，以便决定和选择哪个信号对具有最高程度的相似度，并且因此适用于被选择作为所述至少三个经预处理的音频信号中用于成对处理的一对，其中，每个信号对的归一化互相关值被存储在互相关向量中，以及其中，所述自适应联合信号处理器(200)被配置用于通过将先前帧的互相关向量与当前帧的互相关向量进行比较(222、223)来确定是否要保留一个或多个先前帧的信号对选择，并且其中，在当前帧的互相关向量与先前帧的互相关向量之间的差小于预定义阈值时，保留(225)先前帧的信号对选择。 23.根据前述权利要求中的一项所述的多信号编码器，其中，所述信号预处理器(100)被配置用于使用从多个不同窗口长度中选择的某个窗口长度来执行时频转换，其中，所述自适应联合信号处理器(200)被配置为在比较经预处理的音频信号以确定要成对处理的信号对时，确定所述信号对是否具有相同的关联窗口长度，以及其中，所述自适应联合信号处理器(200)被配置为：仅当两个信号已经与所述信号预处理器(100)应用的相同窗口长度相关联时，才允许所述两个信号的成对处理。 24.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为应用非级联信号对处理，在所述非级联信号对处理中，经处理的信号对中的信号在进一步的信号对处理中是不可选择的，其中，所述自适应联合信号处理器(200)被配置用于基于用于成对处理的信号对之间的互相关来选择信号对，并且其中，若干所选择的信号对的成对处理是并行执行的。 25.根据权利要求25所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置为针对所选择的信号对来确定立体声编码模式，并且其中，当将所述立体声编码模式确定为双单声道模式时，该信号对中涉及的信号被至少部分地重新缩放并被指示为要被单独编码的信号。 26.根据权利要求18和19中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于：如果核心区域的立体声模式不同于智能间隙填充I GF区域的立体声模式，或如果核心的立体声模式被标记为频带方式中/边编码，则针对经成对处理的信号对执行立体声IGF操作，或者其中，所述自适应联合信号处理器(200)被配置为：如果核心区域的立体声模式没有不同于IGF区域的立体声模式，或核心的立体声模式未被标记为频带方式中/边编码模式，则针对经成对处理的信号对中的信号应用单信号IGF分析。 27.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于：在由所述信号编码器(300)单独编码所述IGF操作的结果之前，执行智能间隙填充操作，其中，将功率频谱用于量化和智能间隙填充IGF中的音调/噪声确定，并且其中，所述信号预处理器(100)被配置用于针对MDST频谱执行与已应用于MDCT频谱的频域噪声成形相同的频域噪声成形，以及其中，所述自适应联合信号处理器(200)被配置用于对经预处理的MDST频谱执行相同的中/边处理，使得在由所述信号编码器(300)执行的量化内或在由所述自适应联合信号处理器(200)执行的智能间隙填充处理内使用经处理的MDST频谱的结果，或者其中，所述自适应联合信号处理器(200)被配置用于基于用于所述MDST频谱的全频带缩放向量来应用相同的归一化缩放，这与使用相同的经量化的缩放向量对所述MDCT频谱进行的缩放一样。 28.根据前述权利要求中的一项所述的多信号编码器，其中，所述自适应联合信号处理器(200)被配置用于对所述至少三个经预处理的音频信号执行成对处理，以获得所述至少三个经联合处理的信号或者要被单独编码的信号和至少两个经联合处理的信号。 29.根据前述权利要求中的一项所述的多信号编码器，其中，所述至少三个音频信号中的音频信号是音频声道，或者其中，所述至少三个音频信号中的音频信号是声场描述的音频分量信号，所述声场描述例如是环境立体声声场描述、B格式描述、A格式描述或其他任何声场描述，例如相对于参考位置来描述声场的声场描述。 30.根据前述权利要求中的一项所述的多信号编码器，其中，所述信号编码器(300)被配置用于对每个信号进行单独编码以获得至少三个经单独编码的信号，或者用于对多于一个信号执行(熵)编码。 31.一种用于解码经编码的信号的多信号解码器，包括：信号解码器(700)，用于解码至少三个经编码的信号；联合信号处理器(800)，用于根据经编码的信号中包括的边信息执行联合信号处理，以获得至少三个经处理的解码信号；以及后期处理器(900)，用于根据在经编码的信号中包括的边信息来对所述至少三个经处理的解码信号进行后期处理，其中，执行所述后期处理使得经后期处理的信号比后期处理之前的信号白化较少，并且其中，所述经后期处理的信号表示经解码的音频信号。 32.根据权利要求32所述的多信号解码器，其中，所述联合信号处理器(800)：被配置为从经编码的信号中提取(610)每个经联合立体声解码的信号的能量归一化值；被配置为使用由经编码的信号中的边信息指示的联合立体声模式来对经解码的信号进行成对处理(820)，以获得经联合立体声解码的信号；以及被配置为使用所述能量归一化值对所述经联合立体声解码的信号进行能量重新缩放(830)，以获得经处理的解码信号。 33.根据权利要求32所述的多信号解码器，其中，所述联合信号处理器(800)被配置为检查从经编码的信号中提取的用于特定信号的能量归一化值是否具有预定义值，以及其中，所述联合信号处理器(800)被配置为：当所述能量归一化值具有所述预定义值时，不对所述特定信号执行能量重新缩放或对所述特定信号仅执行减少的能量重新缩放。 34.根据权利要求32至34中的一项所述的多信号解码器，其中，所述信号解码器(700)被配置为从经编码的信号中提取(620)每个经编码的信号的比特分配值，使用信号的比特分配值、针对所有信号的剩余比特数以及可选地进一步的精炼步骤或可选地最终捐赠步骤来确定(720)针对该信号的所使用的比特分配；以及基于针对每个信号的所使用的比特分配来执行(710、730)单独解码。 35.根据权利要求32至35中的一项所述的多信号解码器，其中，所述联合信号处理器(800)被配置为使用经编码的信号中的边信息对经单独解码的信号执行(820)频带复制或智能间隙填充处理，以获得频谱增强的单独信号；以及使用所述频谱增强的单独信号，根据联合处理模式来执行联合处理(820)。 36.根据权利要求36所述的多信号解码器，其中，所述联合信号处理器(800)被配置为：当目的地范围被指示为具有另一立体声表示时，将源范围从一个立体声表示变换为所述另一立体声表示。 37.根据权利要求32至37中的一项所述的多信号解码器，其中，所述联合信号处理器(800)被配置为从经编码的信号中提取每个经联合立体声解码的信号的能量归一化值(534b)，并附加地提取标志(534a)，所述标志(534a)指示所述能量归一化值是放大值还是缩小值，以及使用所述能量归一化值执行(830)重新缩放，当所述标志具有第一值时所述重新缩放为缩小，并且当所述标志具有不同于所述第一值的第二值时所述重新缩放为放大。 38.根据权利要求32至38中的一项所述的多信号解码器，其中，所述联合信号处理器(800)被配置为从经编码的信号中提取(630)对由联合编码操作产生的信号对进行指示的边信息，从最后一个信号对开始执行(820)逆立体声或多声道处理以获得经编码的信号，以便转换回到每个信号的原始的经预处理的频谱，并且基于经编码的信号的边信息(532)中指示的立体声模式和/或频带方式中/边决定来执行逆立体声处理。 39.根据权利要求32至39中的一项所述的多信号解码器，其中，所述联合信号处理器(800)被配置为基于针对每个单独信号包括的经量化的能量缩放信息，将信号对中涉及的所有信号去归一化(830)为对应的原始能量水平，并且其中，信号对处理中未涉及的其他信号并未如同信号对处理中涉及的信号一样被去归一化。 40.根据权利要求32至40中的一项所述的多信号解码器，其中，所述后期处理器(900)被配置为针对每个经单独处理的解码信号执行时间噪声成形操作(910)或频域噪声成形操作(910)以及从频谱域到时域的转换(920)和经后期处理的信号的后续时间帧之间的后续重叠/相加操作(930)。 41.根据权利要求32至41中的一项所述的多信号解码器，其中，所述联合信号处理器(800)被配置为从经编码的信号中提取指示是否要使用中/边或左/右编码来对信号对的时间帧的若干频带进行逆处理的标志，并且其中，所述联合信号处理器(800)被配置为使用该标志来使该信号对的对应频带根据该标志的值而全部遭受中/边处理或左/右处理，以及其中，对于相同信号对的不同时间帧或在相同时间帧处的不同信号对，从经编码的信号的边信息中提取针对每个单独频带指示单独编码模式的编码模式掩码，并且其中，所述联合信号处理器(800)被配置为：按照针对与对应频带相关联的比特所指示的，将逆中/边处理或左/右处理应用于该频带。 42.根据权利要求32至42中的一项所述的多信号解码器，其中，经编码的信号是经编码的多声道信号，其中，所述多信号解码器是多声道解码器，其中，经编码的信号是经编码的多声道信号，其中，所述信号解码器(700)是声道解码器，其中，经编码的信号是经编码的声道，其中，所述联合信号处理是联合声道处理，其中，所述至少三个经处理的解码信号是至少三个经处理的解码信号，其中，所述经后期处理的信号是声道，或者其中，经编码的信号是经编码的多分量信号，所述经编码的多分量信号表示声场描述的音频分量信号，所述声场描述例如是环境立体声声场描述、B格式描述、A格式描述或其他任何声场描述，例如相对于参考位置描述声场的声场描述，其中，所述多信号解码器是多分量解码器，其中，经编码的信号是经编码的多分量信号，其中，所述信号解码器(700)是分量解码器，其中，经编码的信号是经编码的分量，其中，所述联合信号处理是联合分量处理，其中，所述至少三个经处理的解码信号是至少三个经处理的解码分量，并且其中，所述经后期处理的信号是分量音频信号。 43.一种用于对至少三个音频信号执行多信号编码的方法，包括：单独地预处理每个音频信号以获得至少三个经预处理的音频信号，其中，所述预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化；对所述至少三个经预处理的音频信号执行处理，以获得至少三个经联合处理的信号或者要被单独编码的信号和至少两个经联合处理的信号；对每个信号进行编码以获得一个或多个经编码的信号；以及发送或存储经编码的多信号音频信号，所述经编码的多信号音频信号包括所述一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。 44.一种用于对经编码的信号进行多信号解码的方法，包括：单独地解码至少三个经编码的信号；根据经编码的信号中包括的边信息执行联合信号处理，以获得至少三个经处理的解码信号；以及根据在经编码的信号中包括的边信息来对所述至少三个经处理的解码信号进行后期处理，其中，执行所述后期处理使得经后期处理的信号比后期处理之前的信号白化较少，并且其中，所述经后期处理的信号表示经解码的音频信号。 45.一种计算机程序，当运行在计算机或处理器上时，用于执行根据权利要求44所述的方法或根据权利要求45所述的方法。 46.一种经编码的信号，包括：至少三个经单独编码的信号(510)；与为了获得所述三个经单独编码的信号而执行的预处理相关的边信息(520)；以及与用于获得所述至少三个经单独编码的信号而执行的成对处理相关的边信息(532)，以及其中，针对通过多信号编码获得的所述至少三个经编码的信号中的每一个，所述经编码的信号包括能量缩放值(534)，或者针对经单独编码的信号中的每一个，所述经编码的信号包括比特分配值(536)。

专利专题