一种基于声学事件的音频场景识别方法

引用

摘要：

本发明公开了一种基于声学事件的音频场景识别方法，具体步骤为：步骤一：对拟进行音频场景识别的音频流进行音频分割；步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系；步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系；步骤四：对每个音频场景片段，确定音频场景片段中包含的主要声学事件，确定音频场景片段的语义场景。本发明对主要声学事件的判断更加合理准确，进而能提高语义场景识别的准确率；本发明具有很好的推广性；本发明为视频场景识别提供很好的辅助作用，以提高视频场景识别的准确率。

专利类型：发明专利

申请/专利号：CN201310140633.8

申请日期：2013-04-22

公开/公告号：CN103226948A

公开/公告日：2013-07-31

主分类号：G10L15/06(2013.01)I

申请/专利权人:山东师范大学

发明/设计人:冷严;徐新艳

主申请人地址:250014 山东省济南市历下区文化东路88号

专利代理机构:济南圣达知识产权代理有限公司 37221

代理人:张勇

国别省市代码:山东;37

权利要求：

一种基于声学事件的音频场景识别方法，其特征是，具体步骤为：步骤一：对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧；步骤二：对每个音频场景片段中所包含的音频帧，通过声学事件模型进行分类，得到音频帧与各个声学事件类之间的概率关系；步骤三：对每个音频场景片段，综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系；步骤四：对每个音频场景片段，根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件，进而推理得到音频场景片段的语义场景。

专利专题