一种基于实时解码的语音端点检测方法

引用

摘要：

一种基于实时解码的语音端点检测方法，步骤为：输入语音识别相关文本，解析文本；根据文本解析结果构建解码网络；输入语音，提取语音中的声学特征，基于构建的解码网络对所述声学特征进行解码，得到解码后的语音单元序列；对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部外部应用系统，否则继续第二步；在第三步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点。本发明解决了在语音识别文本确定的情况下，传统端点检测技术表现出来的实时性不高，无法对用户关心的语音进行针对性检测问题。

专利类型：发明专利

申请/专利号：CN201210483046.4

申请日期：2012-11-24

公开/公告号：CN102982811A

公开/公告日：2013-03-20

主分类号：G10L25/87(2013.01)I

申请/专利权人:安徽科大讯飞信息科技股份有限公司

发明/设计人:吴玲;王兵;赵乾;潘颂声;何春江;朱群

主申请人地址:230088 安徽省合肥市高新开发区望江西路666号

专利代理机构:北京科迪生专利代理有限责任公司 11251

代理人:成金玉

国别省市代码:安徽;34

权利要求：

一种基于实时解码的语音端点检测方法，其特征在于实现步骤如下：第一步：输入语音识别相关文本，解析文本；第二步：根据文本解析结果构建解码网络；第三步：实时输入语音，提取语音中的声学特征，基于第二步构建的解码网络对所述声学特征进行解码，得到解码后的语言单元序列；所述语言单元序列中每一个单元称为一帧；第四步：对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部应用系统，否则继续第三步；在第四步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点；所述第四步中的语音开始点判断如下：（1.1）取解码器中的最优路径；（1.2）语音开始点预警，即根据解码器中的最优路径，判断当前语音文本是否可能达到语音开始点，如果是，进行步骤（1.3），否则结束判断；（1.3）确认预警，即判断语音文本中是否有文本内音素或有效的垃圾语音，通过此过程来确认当前是否真的达到语音开始点；如果是，得到开始点，否则直接退出；所述第四步中的语音结束点判断如下：（2.1）取解码器中当前最优路径；（2.2）语音结束点预警，即根据解码器中的最优路径，判断语音文本中的最后一个音素是否可能说了，如果是，进行步骤（2.3），否则结束判断；（2.3）确认预警，即语音文本中最后一个音素是否真的说过了，通过帧长，帧平均似然度指标来决策，如果判断为真的说了，则得到语音结束点，结束流程，否则直接结束。

专利专题