双端媒体智能

引用

摘要：

本发明揭示一种编码音频内容的方法，其包括执行所述音频内容的内容分析，基于所述内容分析生成指示所述音频内容的内容类型的分类信息，在位流中编码所述音频内容和所述分类信息，以及输出所述位流。本发明揭示一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的方法，其中所述分类信息指示所述音频内容的内容分类，所述方法包括接收所述位流，解码所述音频内容和所述分类信息，以及基于所述分类信息选择用于对所述经解码音频内容执行后处理的后处理模式。选择所述后处理模式可涉及基于所述分类信息计算用于所述经解码音频内容的后处理的一或多个控制权重。

专利类型：发明专利

申请/专利号：CN201980080866.9

申请日期：2019-12-10

公开/公告号：CN113168839A

公开/公告日：2021-07-23

主分类号：G10L19/20(2006.01)

申请/专利权人:杜比实验室特许公司

发明/设计人:白燕宁;M·W·杰勒德;R·韩;M·沃尔特斯

主申请人地址:美国加利福尼亚州

专利代理机构:北京律盟知识产权代理有限责任公司

代理人:赵子杰

国别省市代码:美国;US

权利要求：

1.一种编码音频内容的方法，所述方法包括：执行所述音频内容的内容分析；基于所述内容分析生成指示所述音频内容的内容类型的分类信息，其中所述分类信息包括一或多个置信度值，每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示；在位流中编码所述音频内容和所述分类信息；及输出所述位流。 2.根据权利要求1所述的方法，其中所述内容分析至少部分地基于所述音频内容的元数据。 3.根据权利要求1到2中任一权利要求所述的方法，其进一步包括：接收与所述音频内容的内容类型相关的用户输入；其中所述生成信息基于所述用户输入。 4.根据权利要求3所述的方法，其中所述用户输入包含：标记，其指示所述音频内容具有给定内容类型。 5.根据权利要求1到4中任一权利要求所述的方法，其中所述音频内容作为音频节目的部分在音频内容流中提供，所述方法进一步包括：接收指示所述音频内容的服务类型的服务类型指示；至少部分地基于所述服务类型指示执行所述音频内容的内容分析；其中所述生成指示所述音频内容的内容类型的分类信息基于所述内容分析。 6.根据权利要求5所述的方法，其进一步包括：基于所述服务类型指示来确定所述音频内容的所述服务类型是否是音乐服务；及响应于所述确定所述音频内容的所述服务类型是音乐服务，生成指示所述音频内容的所述内容类型是音乐内容的所述分类信息。 7.根据权利要求5或6所述的方法，其进一步包括：基于所述服务类型指示来确定所述音频内容的所述服务类型是否是新闻广播服务；及响应于所述确定所述音频内容的所述服务类型是新闻广播服务，将所述内容分析调适为具有高于预定阈值的可能性值以指示所述音频内容是语音内容。 8.根据权利要求5到7中任一权利要求所述的方法，其中所述服务类型指示在逐帧基础上提供。 9.根据权利要求1到7中任一权利要求所述的方法，其取决于权利要求2，其中所述音频内容基于文件提供，并且其中所述文件包含用于其相应音频内容的元数据。 10.根据权利要求9所述的方法，其中所述元数据包含指示所述文件的文件内容类型的文件内容类型指示；并且其中所述内容分析至少部分地基于所述文件内容类型指示。 11.根据权利要求10所述的方法，其进一步包括：基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是音乐文件；及响应于所述确定所述文件的所述文件内容类型是音乐文件，生成指示所述音频内容的所述内容类型是音乐内容的所述分类信息。 12.根据权利要求10或11所述的方法，其进一步包括：基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是新闻广播文件；及响应于所述确定所述文件的所述文件内容类型是新闻广播文件，将所述内容分析调适为具有高于预定阈值的可能性值以指示所述音频内容是语音内容。 13.根据权利要求10到12中任一权利要求所述的方法，其进一步包括：基于所述文件内容类型指示来确定所述文件的所述文件内容类型是否是动态的；及响应于所述确定所述文件的所述文件内容类型是动态内容，将所述内容分析调适为允许不同内容类型之间的较高转变率。 14.根据权利要求1到13中任一权利要求所述的方法，其中所述内容类型包含选自以下群组中的一或多个内容：音乐内容、语音内容、效果内容及人群噪声。 15.根据权利要求1到14中任一权利要求所述的方法，其进一步包括：将所述音频内容中的场景转变的指示编码到所述位流中。 16.根据权利要求1到15中任一权利要求所述的方法，其进一步包括：在编码前对所述分类信息进行平滑。 17.根据权利要求1到16中任一权利要求所述的方法，其进一步包括：在编码前对所述分类信息进行量化。 18.根据权利要求1到17中任一权利要求所述的方法，其进一步包括：将所述分类信息编码到所述位流的数据包中的特定数据字段中。 19.一种用于编码音频内容的编码器，所述编码器包括处理器，所述处理器耦合到存储用于所述处理器的指令的存储器，其中所述处理器经调适以执行根据权利要求1到18中任一权利要求所述的方法。 20.一种从包含音频内容和所述音频内容的分类信息的位流解码音频内容的方法，其中所述分类信息指示所述音频内容的内容类型，其中所述分类信息包括一或多个置信度值，每一置信度值与相应内容类型相关联且给出所述音频内容具有所述相应内容类型的可能性的指示，所述方法包括：接收所述位流；解码所述音频内容和所述分类信息；基于所述分类信息选择用于执行所述经解码音频内容的后处理的后处理模式；及基于所述分类信息计算用于所述经解码音频内容的所述后处理的一或多个控制权重，其中所述控制权重是基于所述置信度值来计算的。 21.根据权利要求20所述的方法，其中所述位流包括基于声道的音频内容，并且所述后处理包括：将所述基于声道的音频内容上混频到经上混频的基于声道的音频内容；及将虚拟化器应用到所述经上混频的基于声道的音频内容，以获得虚拟化的经上混频的基于声道的音频内容，用于对所需数目个声道的扬声器阵列进行虚拟化。 22.根据权利要求20或21所述的方法，其中所述后处理模式的所述选择进一步基于用户输入。 23.根据权利要求21到22中任一权利要求所述的方法，其进一步包括将所述虚拟化器的输出路由到所述扬声器阵列，及基于所述分类信息计算用于上混频器及所述虚拟化器的相应控制权重。 24.根据权利要求21到22中任一权利要求所述的方法，其中，在应用所述虚拟化器之后，所述方法进一步包括：将交叉渐变器应用到所述基于声道的音频内容和所述虚拟化的经上混频音频内容；将所述交叉渐变器的输出路由到所述扬声器阵列，及基于所述分类信息计算用于所述上混频器及所述交叉渐变器的相应控制权重。 25.根据权利要求20到24中任一权利要求所述的方法，其中所述控制权重是用于所述经解码音频内容的后处理的相应模块的控制权重。 26.根据权利要求20到25中任一权利要求所述的方法，其中所述控制权重包含用于均衡器的控制权重、用于虚拟化器的控制权重、用于环绕处理器的控制权重和用于对话增强器的控制权重中的一或多者。 27.根据权利要求20到26中任一权利要求所述的方法，其中所述控制权重的所述计算取决于执行所述解码的装置的装置类型。 28.根据权利要求20到27中任一权利要求所述的方法，其中所述控制权重的所述计算进一步基于用户输入。 29.根据权利要求20到28中任一权利要求所述的方法，其中所述控制权重的所述计算进一步基于所述音频内容的声道的数目。 30.根据权利要求20到29中任一权利要求所述的方法，其中所述控制权重包含用于虚拟化器的控制权重；且其中计算用于所述虚拟化器的所述控制权重，使得如果所述分类信息指示所述音频内容的所述内容类型是音乐或可能是音乐，那么禁用所述虚拟化器。 31.根据权利要求20到30中任一权利要求所述的方法，其中所述控制权重包含用于虚拟化器的控制权重；且其中计算用于所述虚拟化器的所述控制权重，使得所述虚拟化器的系数在直通虚拟化和完全虚拟化之间缩放。 32.根据权利要求20到31中任一权利要求所述的方法，其中所述控制权重包含用于对话增强器的控制权重；且其中计算用于所述对话增强器的所述控制权重，使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音，那么增强由所述对话增强器进行的对话增强。 33.根据权利要求20到32中任一权利要求所述的方法，其中所述控制权重包含用于动态均衡器的控制权重；且其中计算用于所述动态均衡器的所述控制权重，使得如果所述分类信息指示所述音频内容的所述内容类型是语音或可能是语音，那么禁用所述动态均衡器。 34.根据权利要求20到33中任一权利要求所述的方法，其进一步包括对所述控制权重进行平滑。 35.根据权利要求34所述的方法，其中所述控制权重的所述平滑取决于经平滑的所述特定控制权重。 36.根据权利要求34或35所述的方法，其中所述控制权重的所述平滑取决于执行所述解码的装置的装置类型。 37.根据权利要求33到36中任一权利要求所述的方法，其进一步包括将非线性映射函数应用到所述控制权重以增加所述控制权重的连续性。 38.根据权利要求21到37中任一权利要求所述的方法，其中所述位流是AC-4位流，所述方法包括：解码双声道音频内容和所述分类信息；将所述双声道音频内容上混频到经上混频的5.1声道音频内容；将虚拟化器应用到所述经上混频的5.1声道音频内容，以用于针对双声道扬声器阵列的5.1虚拟化；将交叉渐变器应用到所述双声道音频内容和所述虚拟化的经上混频的5.1声道音频内容；及将所述交叉渐变器的输出路由到所述双声道扬声器阵列，其中所述方法进一步包括基于所述分类信息计算用于所述虚拟化器及所述交叉渐变器的相应控制权重。 39.根据权利要求21到38中任一权利要求所述的方法，其中所述位流包含双声道音频内容及所述双声道音频内容的分类信息，其中所述分类信息指示所述双声道音频内容的内容分类，所述方法包括：解码所述双声道音频内容和所述分类信息；将上混频器应用到所述双声道音频内容以用于将所述双声道音频内容上混频到经上混频的5.1声道音频内容；将虚拟化器应用到所述经上混频的5.1声道音频内容，以用于针对五声道扬声器阵列的5.1虚拟化；及将所述虚拟化器的输出路由到所述五声道扬声器阵列，其中所述方法进一步包括基于所述分类信息计算用于所述上混频器及所述虚拟化器的相应控制权重。 40.一种用于解码音频内容的解码器，所述解码器包括处理器，所述处理器耦合到存储用于所述处理器的指令的存储器，其中所述处理器经调适以执行根据权利要求20到39中任一权利要求所述的方法。 41.一种计算机程序，其包含指令，所述指令用于使执行所述指令的处理器执行根据权利要求1到39中任一权利要求所述的方法。

专利专题