一种应用于城市大脑的语音交互方法及系统

引用

摘要：

本发明涉及一种应用于城市大脑的语音交互方法及系统，该方法包括：采集当前环境下的语音信号；对所述语音信号进行预处理，以提取有效的语音片段；利用动态阈值分析方法，判断所述有效的语音片段中是否包含唤醒词，并在确定存在唤醒词时，识别并响应所述语音片段中的语音交互指令。相比现有技术，本发明提供的技术方案，只在判定当前真实环境下有唤醒词时，才进行后续的语音交互指令识别及响应，提高了语音唤醒的准确率，用户体验度好、满意度高。

专利类型：发明专利

申请/专利号：CN202010626621.6

申请日期：2020-07-01

公开/公告号：CN111833869A

公开/公告日：2020-10-27

主分类号：G10L15/22(2006.01)

申请/专利权人:中关村科学城城市大脑股份有限公司

发明/设计人:何彬;谷雨明;赵丽丽;罗建萌;朱小敏;徐起

主申请人地址:100081 北京市海淀区中关村南大街5号1区689号楼海淀科技大厦6层

专利代理机构:北京劲创知识产权代理事务所(普通合伙)

代理人:张铁兰

国别省市代码:北京;11

权利要求：

1.一种应用于城市大脑的语音交互方法，其特征在于，包括：采集当前环境下的语音信号；对所述语音信号进行预处理，以提取有效的语音片段；利用动态阈值分析方法，判断所述有效的语音片段中是否包含唤醒词，并在确定存在唤醒词时，识别并响应所述语音片段中的语音交互指令。 2.根据权利要求1所述的方法，其特征在于，所述对所述语音信号进行预处理，包括：将所述语音信号转换为音频流数据；对所述音频流数据进行降噪处理，以获取信噪比更高的音频流数据；对降噪处理后的音频流数据进行分帧处理；对分帧处理后的音频流数据进行端点检测，从而在连续的音频流数据中检测出有效的语音片段。 3.根据权利要求2所述的方法，其特征在于，所述对所述音频流数据进行降噪处理，具体为：采用最小均方误差自适应滤波方法，对所述音频流数据进行降噪处理。 4.根据权利要求1所述的方法，其特征在于，所述动态阈值分析方法，包括：对有效的语音片段进行傅里叶变换，以提取有效的语音片段的频谱特征；将任一有效的语音片段的频谱特征送入预先训练好的唤醒词识别模型的同时，判断所述有效的语音片段的后验概率是否大于动态阈值T；若所述有效的语音片段的后验概率大于动态阈值T，则确定所述有效的语音片段中包含唤醒词，并控制所述唤醒词识别模型识别出所述唤醒词。 5.根据权利要求4所述的方法，其特征在于，所述阈值T根据以下方法进行确定：根据经验确定固定阈值T0，并将T0存储在配置文件中；计算当前时刻有效的语音片段的短时能量与紧邻当前时刻的前两个有效的语音片段的短时能量之和的比值，计为offset；根据公式T＝T0+offset，确定阈值T。 6.根据权利要求4所述的方法，其特征在于，控制所述唤醒词识别模型识别出所述唤醒词的同时，还包括：提取所述唤醒词的声纹特征；所述识别并响应所述语音片段中的语音交互指令，具体为：判断提取的声纹特征是否与预存的声纹特征相匹配，若是，识别并响应所述语音片段中的语音交互指令，否则，忽略所述语音交互指令。 7.根据权利要求6所述的方法，其特征在于，所述识别并响应所述语音片段中的语音交互指令，具体为：将所述语音交互指令送入到预先训练好的端到端语音识别模型，进行语音识别；对语音识别出的文本，利用基于知识图谱的智能对话系统进行自然语言处理，返回应答文本；将返回的应答文本，输入到预存的端到端语音合成模型，生成对应的音频并通过播放设备进行回答。 8.根据权利要求7所述的方法，其特征在于，所述端到端语音识别模型采用CNN+CTC模型，采用VGG16基本模型架构，13个卷积层，3个全连接层，其中三层全连接层用于实现注意力机制，损失函数采用CTC损失函数，网络优化器采用Adam优化器。 9.根据权利要求7所述的方法，其特征在于，还包括：利用强化学习的方法，采用增量式参数更新的方式，不断优化所述端到端语音识别模型的参数。 10.一种应用于城市大脑的语音交互系统，其特征在于，包括：采集模块，用于采集当前环境下的语音信号；预处理模块，用于对所述语音信号进行预处理，以提取有效的语音片段；响应模块，用于利用动态阈值分析方法，判断所述有效的语音片段中是否包含唤醒词，并在确定存在唤醒词时，识别并响应所述语音片段中的语音交互指令。

专利专题