一种面向多领域的智能语音交互方法

引用

摘要：

本发明涉及智能语音交互领域，尤其涉及一种面向多领域的智能语音交互方法，包括：获取语音信号；对语音信号进行语音识别得到文本信息；提取文本信息中的关键字，并根据关键字匹配到相应的电网领域；对获取的文本信息进行评分并调整；根据调整后的文本信息生成答案文本；将答案文本进行语音合成并输出。本发明能够有效的提升电网人员处理业务的能力和效率，具有良好的经济效益和实用价值。

专利类型：发明专利

申请/专利号：CN202011413880.7

申请日期：2020-12-04

公开/公告号：CN112581964A

公开/公告日：2021-03-30

主分类号：G10L15/26(2006.01)

申请/专利权人:浙江大有实业有限公司杭州科技发展分公司

发明/设计人:吴靖;边巧燕;罗少杰;樊立波;徐树良;郑伟彦;刘宏伟;严性平;朱家庆;顾建炜

主申请人地址:310000 浙江省杭州市滨江区西兴街道庙后王路263号1号楼5楼

专利代理机构:杭州华鼎知识产权代理事务所(普通合伙)

代理人:魏亮

国别省市代码:浙江;33

权利要求：

1.一种面向多领域的智能语音交互方法，其特征在于，包括：获取语音信号；对语音信号进行语音识别得到文本信息；提取文本信息中的关键字，并根据关键字匹配到相应的电网领域；对获取的文本信息进行评分并调整；根据调整后的文本信息生成答案文本；将答案文本进行语音合成并输出。 2.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述获取语音信号包括：麦克风阵列通过多个麦克风收集信号作为语音信号处理的输入，麦克风阵列中第i个麦克风接收到的信号为：式中：yi为麦克风阵列中第i个麦克风接收到的信号，i＝1,2，...N，r(x)为声源信号，αi为声波传播的衰减因子，τi是声波传播到两个麦克风所需要的时间，ni(x)为环境噪声，且r(x)和ni(k)之间彼此不相关，nid(x)为第i个麦克风接收到的多径反射噪声，nie(x)为第i个麦克风接收到的环境噪声；对应的矢量形式为： y(x)＝m(x)*r(x)+nl(x) (2) 式中：符号“*”为卷积算子，nl(x)为干扰成分。 3.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述对语音信号进行语音识别得到文本信息包括：通过ASR与热词技术相结合的方法实现初步的语音识别，得到文本信息。 4.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述提取文本信息中的关键字，并根据关键字匹配到相应的电网领域包括：提取文本信息中的关键字；根据关键字对用户提出的问题匹配到相应的电网领域，结合电网热词在该领域中进行意图识别，意图识别的模型如公式(3)所示：式中：P为在电网热词为X的情况下文本属于Y领域的概率，hij为高维特征，Y为不同的电力领域，X为电网热词；根据意图识别的模型，获取初步语音识别的文本信息属于每个领域的概率，从而确定该文本信息对应的电网领域。 5.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述对获取的文本信息进行评分并调整包括：评估分数模型如公式(4)所示：式中：SES是句子的评估分数，N是该句初始文本信息的名词中出现同音多词的词汇个数，V是该句初始文本信息的动词中出现同音多词的词汇个数，A是该句初始文本信息的形容词中出现同音多词的词汇个数；结合评分模型，锁定分数低于100％的句子，将该句中有同音多词问题的词汇用领域热词库中的词汇进行替换，直到评分达到100％。 6.根据权利要求5所述的一种面向多领域的智能语音交互方法，其特征在于，所述将该句中有同音多词问题的词汇用领域热词库中的词汇进行替换包括：如果热词库中仅有一个词与该句中对应的词存在同音不用词，则直接用热词库中的词将该词进行替换；如果热词库中有多个词与该句中对应的词存在同音不用词，则需要结合语义分析，通过对上下文内容的相关性进行审查，从而确定选择哪个词对该词进行替换。 7.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述根据调整后的文本信息生成答案文本包括：获取到的调整后的文本信息输入领域问答引擎，问答引擎将确定一个预定问题；计算所述第一输入信息与预定文件中每个预定问题之间的语义相似度，确定与第一输入信息之间的语义相似度满足预定范围的预定问题，所述第一输入信息是指用户首次输入的语音信息，所述预定文件是指包含所有支持问题和领域对应关系的配置文件；在问答过程中，输出对于所确定的预定问题的一个未知条件的提问，获取用户答复的条件，根据预定的条件组合和答案之间的对应关系与领域知识图谱，判断已获取的条件的组合是否存在对应的答案；如果存在，则输出已获取的条件的组合所对应的答案；如果不存在，则进行下一轮问答。 8.根据权利要求1所述的一种面向多领域的智能语音交互方法，其特征在于，所述将答案文本进行语音合成并输出包括：使用LMA模型实现语音合成，LMA模型如下：式中：x为语音信号，C为语音信号的倒谱系数，L为调整系数。

专利专题