一种方法、计算机程序、编码器和监视设备
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种方法、计算机程序、编码器和监视设备

引用
本发明公开了一种方法、计算机程序、编码器和监视设备,在用于利用可变比特率来编码音频信号的方法中:接收包括多个连续的音频帧的音频信号;并且对于音频信号的每个连续的音频帧:相对于多个频率子带在频域中表示音频帧;使用特定于频率子带的背景模型将每个频率子带的音频帧分类为背景或前景;编码音频信号的每个连续的音频帧,其中为音频帧的每个频率子带分配比特数,其中如果音频帧在频率子带中被分类为前景,则为频率子带分配的比特数高于如果音频帧在频率子带中被分类为背景时为频率子带分配的比特数。

发明专利

CN202010506983.1

2020-06-05

CN112151043A

2020-12-29

G10L19/00(2013.01)

安讯士有限公司

M·耶拉奇;M·特德沃;M·杰勒德;范星;里卡多·王德洛夫

瑞典浪德

北京德琦知识产权代理有限公司

康泉%宋志强

瑞典;SE

1.一种用于利用可变比特率来编码音频信号(30)的方法(100),所述方法(100)包括: 接收(S102)待编码的音频信号(30),所述音频信号(30)包括多个连续的音频帧(32); 对于所述音频信号(30)的每个连续的音频帧(32): 相对于多个频率子带(34)在频域中表示(S104)所述音频帧(32); 使用特定于所述频率子带(34)的背景模型,将每个频率子带(34)中的所述音频帧(32)分类(S106)为背景或前景; 编码(S108)所述音频信号(30)的每个连续的音频帧(32),其中为所述音频帧(32)的每个频率子带(34)分配比特数,其中如果所述音频帧(32)在频率子带(34)中被分类为前景,则为所述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被分类为背景时为所述频率子带(34)分配的比特数。 2.根据权利要求1所述的方法(100),其中, 分配用于编码所述音频帧(32)的背景分类频率子带(34)的比特数取决于所述音频帧(32)的背景分类频率子带(34)的频率范围;和/或 分配用于编码所述音频帧(32)的前景分类频率子带(34)的比特数取决于所述音频帧(32)的前景分类频率子带(34)的频率范围。 3.根据权利要求1所述的方法(100),其中所述音频信号(30)被编码,使得与如果在第一音频帧之前的音频帧中的相同的第一频率子带被分类为背景相比,如果在所述第一音频帧之前的所述音频帧中的所述相同的第一频率子带被分类为前景,则分配至所述第一音频帧的背景分类第一频率子带的比特数更高。 4.根据权利要求1所述的方法(100),其中分配用于编码(S108)所述音频帧(32)的频率子带(34)的所述比特数进一步取决于心理声学模型。 5.根据权利要求2所述的方法(100),其中根据心理声学模型,分配用于编码(S108)所述音频帧(32)的频率子带(34)的比特数取决于所述音频帧(32)的所述频率子带(34)的所述频率范围。 6.根据权利要求1的所述方法(100),其中分配用于编码(S108)所述音频帧的背景分类频率子带(34)的比特数与所述音频帧(32)的所述背景分类频率子带(34)代表的频率范围无关,并且其中分配用于编码(S108)所述音频帧(32)的前景分类频率子带(34)的比特数与所述音频帧(32)的所述前景分类频率子带(34)所属的频率范围无关。 7.根据权利要求1的所述方法(100),所述方法(100)进一步包括: 对于所述音频信号(30)的音频帧(32): 对于所述音频帧(32)的频率子带(34): 基于所述音频帧(32)的所述频率子带(34)的频率内容,更新(S110)与所述音频帧(32)的所述频率子带(34)对应的特定于所述频率子带(34)的所述背景模型。 8.根据权利要求1所述的方法(100),其中特定于频率子带(34)的所述背景模型包括高斯混合模型GMM(50),所述GMM(50)包括多个高斯分布(52),每个高斯分布表示所述频率子带(34)中的能量等级的概率分布。 9.根据权利要求8所述的方法(100),其中如果所述音频帧(32)的频率子带(34)的能量等级在特定于所述频率子带(34)的所述背景模型的GMM(50)的所述高斯分布(52)中的一个的均值附近的预定数量的标准偏差(54)之内,并且如果所述高斯分布(52)的权重高于阈值,则所述音频帧(32)的所述频率子带(34)被分类为背景,其中所述权重表示所述音频帧(32)的所述频率子带(34)的能量等级在所述高斯分布(52)的均值附近的所述预定数量的标准偏差(54)之内的概率。 10.根据权利要求8所述的方法(100),其中所述能量等级是功率谱密度PSD测量值。 11.根据权利要求1所述的方法(100),其中所述方法进一步包括: 将所述音频信号(30)的编码的音频帧(32)与元数据一起传输(S112),其中所述元数据表示所述音频帧(32)的所述频率子带(34)的所述分类(36)。 12.一种计算机程序产品,包括存储计算机可读指令的非暂时性计算机可读介质,所述计算机可读指令在处理器(14)上执行时将使所述处理器(14)执行根据权利要求1所述的方法(100)。 13.一种用于利用可变比特率来编码音频信号(30)的编码器(10),所述编码器(10)包括接收器(12)和一个或多个处理器(14), 其中所述接收器(12)被配置成接收待编码的音频信号(30),所述音频信号(30)包括多个连续的音频帧(32),并且 其中所述一个或多个处理器(14)被配置成: 对于所述音频信号(30)的每个连续的音频帧(32): 相对于多个频率子带(34)在频域中表示所述音频帧(32); 使用特定于所述频率子带(34)的背景模型将每个频率子带(34)中的所述音频帧(32)分类为背景或前景; 编码所述音频信号(30)的每个连续的音频帧(32),其中为所述音频帧(32)的每个频率子带(34)分配比特数,其中如果所述音频帧(32)在频率子带(34)中被分类为前景,则为所述频率子带(34)分配的比特数高于如果所述音频帧(32)在所述频率子带(34)中被分类为背景时为所述频率子带(34)分配的比特数。 14.一种监视设备(1),包括: 麦克风(2),被配置成记录音频信号(30); 根据权利要求13所述的编码器(10),被配置成从所述麦克风(2)接收所述音频信号(30)并利用可变比特率来编码所述音频信号(30)。
相关文献
评论
法律状态详情>>
2020-12-29公开
相关作者
相关机构