一种人工智能交互方法及人工智能交互系统

引用

摘要：

本发明适用于语音交互技术领域，提供了一种人工智能交互方法及人工智能交互系统，所述方法包括以下步骤：接收目标用户语音输入信息，采集目标用户人脸图像；对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。本发明中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。

专利类型：发明专利

申请/专利号：CN202410148487.1

申请日期：2024-02-02

公开/公告号：CN117690416A

公开/公告日：2024-03-12

主分类号：G10L13/08(2013.01)

申请/专利权人:江西科技学院

发明/设计人:石司马;顾旭

主申请人地址:330000 江西省南昌市高新区瑶湖高校园区紫阳大道115号

专利代理机构:北京中济纬天专利代理有限公司

代理人:黄攀

国别省市代码:江西;36

权利要求：

1.一种人工智能交互方法，其特征在于，所述方法包括以下步骤：接收目标用户语音输入信息，采集目标用户人脸图像；对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息；所述对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤，具体包括：对目标用户语音输入信息进行文字转化得到文字信息；对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息；其中，所述根据目标性别和目标年龄确定虚拟人像的步骤，具体包括：将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像；其中，输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像的方法包括如下步骤：根据目标用户语音输入信息的情感色彩值，在预设人像着装色彩库中查找对应的人像着装色彩RGB基准值；根据目标用户语音输入信息的情感色彩值，在预设人像着装服饰类型库中查找对应的人像着装服饰类型；根据人像着装色彩RGB基准值、人像着装服饰类型、目标性别与目标年龄，生成舒适虚拟对象。 2.根据权利要求1所述的一种人工智能交互方法，其特征在于，所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：采集多种方言数据，基于Hadoop平台建立初始方言数据库；提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。 3.根据权利要求2所述的一种人工智能交互方法，其特征在于，对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤之后，所述方法还包括如下步骤：获取所述文字信息中的多个词汇，基于情感词典法查找确定每个词汇对应的词汇情感色彩值；确认每个词汇在文字信息中的重复出现次数，根据重复出现次数在预设重复次数权重因子映射表中查找对应的词汇权重因子；根据多个词汇情感色彩值以及对应的词汇权重因子计算得到文字信息的情感色彩值；根据所述语速信息确定当前语速值，根据所述当前语速值在预设语速情感色彩映射表中查到得到对应的语速情感色彩值，其中，所述预设语速情感色彩映射表为当前语速值与情感色彩值之间的映射关系；根据所述方言信息确定方言类别，并根据所述方言类别在预设方言类别情感校正因子映射表中查找确定对应的情感校正因子，其中所述预设方言类别情感校正因子映射表为各方言类别与情感校正因子之间的映射关系；根据文字信息的情感色彩值、语速情感色彩值以及方言类别对应的情感校正因子，计算得到目标用户语音输入信息的情感色彩值。 4.根据权利要求3所述的一种人工智能交互方法，其特征在于，文字信息的情感色彩值的计算公式表示为：；其中，表示文字信息的情感色彩值，/>表示第/>个词汇对应的词汇情感色彩值，/>表示第/>个词汇对应的词汇权重因子，/>表示文字信息中词汇的最大数量；目标用户语音输入信息的情感色彩值的计算公式表示为：；其中，表示目标用户语音输入信息的情感色彩值，/>表示目标用户语音输入信息的情感色彩值的基准值，/>表示方言类别对应的情感校正因子，/>表示文字信息项的情感色彩值的权重因子，/>表示语速的情感色彩值的权重因子，/>表示当前语速值对应的语速情感色彩值。 5.根据权利要求4所述的一种人工智能交互方法，其特征在于，所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：根据文字信息确定交互文字内容；根据方言信息确定虚拟人像的发音方言；根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。 6.根据权利要求5所述的一种人工智能交互方法，其特征在于，根据文字信息确定交互文字内容的方法包括如下步骤：根据文字信息确定生成初始交互文字内容；判断目标用户语音输入信息的情感色彩值是否大于预设情感色彩值；当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值，则根据目标用户语音输入信息的情感色彩值查找确认对应的引导内容的最低情感色彩值；基于所述初始交互文字内容计算得到初始交互文字内容的情感色彩值，并判断所述初始交互文字内容的情感色彩值是否大于引导内容的最低情感色彩值；若否，则对所述初始交互文字内容进行修正，直到最终生成目标交互文字内容，其中，目标交互文字内容的情感色彩值大于引导内容的最低情感色彩值。 7.根据权利要求6所述的一种人工智能交互方法，其特征在于，当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后，所述方法还包括如下步骤：根据目标用户语音输入信息的情感色彩值，计算得到虚拟人像的语速值；虚拟人像的语速值的计算公式表示为：；其中，表示虚拟人像的语速值，/>表示目标用户的语速值，/>表示情感色彩项的语速值换算系数；根据目标用户语音输入信息的情感色彩值，在预设情感引导语调类型映射表中查找确认对应类型的引导语调；根据虚拟人像的语速值、对应类型的引导语调、虚拟人像的发音方言以及交互文字内容生成交互语音信息。 8.一种人工智能交互系统，其特征在于，执行权利要求1至7任一项所述的人工智能交互方法，所述系统包括：用户信息采集模块，用于接收目标用户语音输入信息，采集目标用户人脸图像；语音信息分析模块，用于对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；人脸图像分析模块，用于对目标用户人脸图像进行分析，得到目标性别和目标年龄；虚拟人像确定模块，用于根据目标性别和目标年龄确定虚拟人像；交互语音确定模块，用于根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。 9.根据权利要求8所述的一种人工智能交互系统，其特征在于，所述语音信息分析模块包括：文字信息确定单元，用于对目标用户语音输入信息进行文字转化得到文字信息；方言信息确定单元，用于对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；语速信息确定单元，用于提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息；所述方言信息确定单元包括：方言数据库子单元，用于采集多种方言数据，基于Hadoop平台建立初始方言数据库；网络模型建立子单元，用于提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；匹配检测子单元，用于对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别；所述虚拟人像确定模块包括：性别年龄输入单元，用于将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；虚拟对象输出单元，用于输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像；所述交互语音确定模块包括：交互内容确定单元，用于根据文字信息确定交互文字内容；发音方言确定单元，用于根据方言信息确定虚拟人像的发音方言；发音速度确定单元，用于根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；虚拟语音生成单元，用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

专利专题