一种AI设备的语音辅助方法

引用

摘要：

本发明公开了一种AI设备的语音辅助方法，包括：步骤1：实时采集用户的面部表情、手势多模态数据，同时采集语音输入，形成语音和图像的多模态数据流；步骤2：将采集到的语音和图像数据进行融合，形成综合的用户输入；步骤3：对用户的面部表情进行情感分析，识别用户的情绪状态，同时结合语音内容，分析用户的语音情感，推断用户的意图和需求；步骤4：结合图像识别结果，根据用户的面部表情或手势进行上下文感知触发；步骤5：在接收到用户请求后，通过语音和图像数据的综合分析，确认用户的意图；步骤6：基于多模态数据的综合分析，动态调整唤醒频率。本发明更好地结合语音与图像识别，实现了更智能、更自然、更人性化的用户体验，有效解决了现有技术中可能存在的一些交互和响应上的不足。

专利类型：发明专利

申请/专利号：CN202311675021.9

申请日期：2023-12-07

公开/公告号：CN117649844A

公开/公告日：2024-03-05

主分类号：G10L15/02(2006.01)

申请/专利权人:北京建筑机械化研究院有限公司

发明/设计人:恩旺;王鹏;王海峰;辛硕;吕欢欢

主申请人地址:100000 北京市东城区方家胡同21号

专利代理机构:北京惠科金知识产权代理有限公司

代理人:王翠萍

国别省市代码:北京;11

权利要求：

1.一种AI设备的语音辅助方法，其特征在于，包括如下步骤：步骤1：实时采集用户的面部表情、手势多模态数据，同时采集语音输入，形成语音和图像的多模态数据流；步骤2：将采集到的语音和图像数据进行融合，形成综合的用户输入；步骤3：对用户的面部表情进行情感分析，识别用户的情绪状态，同时结合语音内容，分析用户的语音情感，推断用户的意图和需求；步骤4：结合图像识别结果，根据用户的面部表情或手势进行上下文感知触发；步骤5：在接收到用户请求后，通过语音和图像数据的综合分析，确认用户的意图；步骤6：基于多模态数据的综合分析，动态调整唤醒频率。 2.根据权利要求1所述的一种AI设备的语音辅助方法，其特征在于，所述步骤1包括：将采集到的图像数据与同时刻的语音数据进行时间同步；对采集到的语音和图像数据进行实时的面部表情分析和手势检测，以获取用户的情感和动作信息；将实时采集到的语音和图像数据存储在设备本地或通过安全的通信协议传输到云端；将同步的语音和图像数据整合成一个多模态数据流。 3.根据权利要求2所述的一种AI设备的语音辅助方法，其特征在于，所述步骤2包括：对语音数据和图像数据分别进行特征提取，对于语音数据，将其转化为文本或情感特征，对于图像数据，利用面部表情分析和手势检测提取相应的特征；将从语音和图像数据中提取的特征进行融合；基于融合后的特征，建立一个多模态的输入表示，包含语音和图像信息的向量，以便在后续的处理中进行综合分析；对融合后的多模态表示进行标准化，确保不同类型的特征对后续模型的影响相对均衡；将融合后的多模态表示作为准备输入，用于后续的情感识别、用户意图分析任务。 4.根据权利要求3所述的一种AI设备的语音辅助方法，其特征在于，所述步骤3包括：对采集到的用户面部表情进行情感分析，对面部表情进行识别并推断用户的情感状态；对从语音输入中提取的声音特征进行情感分析，以识别语音中的情感信息；将面部表情分析和语音情感分析的结果进行融合；基于综合分析的情感信息，推断用户的意图和需求；将推断出的用户意图融入对话的上下文中，确保后续的对话能够更好地理解用户的需求。 5.根据权利要求4所述的一种AI设备的语音辅助方法，其特征在于，所述步骤4包括：定义基于图像识别结果的触发条件，包括识别用户的面部表情或手势，作为触发语音辅助设备进入活跃状态的条件；实时采集和分析捕获的图像数据，对用户的面部表情和手势进行实时分析。将实时的图像识别结果与预定义的触发条件进行匹配，如果检测到用户的面部表情或手势符合设定的触发条件，即可触发语音辅助设备进入活跃状态；在语音辅助设备的对话链中，将触发的事件与当前的对话上下文相关联。根据用户的反馈和行为数据，动态更新触发条件。 6.根据权利要求5所述的一种AI设备的语音辅助方法，其特征在于，所述步骤5包括：将获得的情感识别结果和用户意图分析的信息进行综合分析，以确认用户当前的意图和需求；在确认用户意图的同时，动态更新对话上下文，包括记录先前的对话历史、用户的个性化偏好以及之前的触发条件；通过综合分析结果进行最终的用户意图确认；在用户提出请求后，通过语音和图像数据的综合分析，向用户提供反馈并收集用户的确认或纠正；更新和维护对话的上下文信息，将确认的用户意图整合到对话链中，以便在后续对话中理解用户的需求。 7.根据权利要求6所述的一种AI设备的语音辅助方法，其特征在于，所述步骤6包括：利用实时采集的图像数据，分析用户的互动状态；根据图像识别的结果实时调整唤醒频率；定义合理的频率调整策略，如果检测到用户表现出积极的面部表情和手势，增加唤醒频率以更及时地响应用户请求，反之，如果用户处于较为静态的状态，则降低唤醒频率以减少能源消耗；在调整唤醒频率的同时，通过实时反馈机制向用户传达系统的状态；考虑用户的个性化特征，适应不同用户的互动习惯，通过收集用户的反馈和行为数据，动态地调整唤醒频率调整模块的参数，以提高系统的个性化适应性。

专利专题