基于多媒体对象的语音交互方法、系统、车辆和程序载体

引用

摘要：

本发明涉及数字信息处理领域。本发明提供一种基于多媒体对象、例如名片的语音交互的方法，所述方法包括以下步骤：获取多媒体对象；提取多媒体对象包含的信息；将所提取的信息关联到至少一个语音技能模型；以及根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。本发明还涉及一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。本发明旨在将从多媒体对象提取的信息匹配到适合的语音技能模型并利用所述信息对其进行训练，从而用户能够通过语音交互直接定向到语音技能模型并调用相关语音服务，由此实现了一种更高效、快捷的信息处理方式。

专利类型：发明专利

申请/专利号：CN202011131092.9

申请日期：2020-10-21

公开/公告号：CN112259103A

公开/公告日：2021-01-22

主分类号：G10L15/30(2013.01)

申请/专利权人:戴姆勒股份公司

发明/设计人:戚耀文

主申请人地址:德国斯图加特

专利代理机构:北京永新同创知识产权代理有限公司

代理人:慕弦

国别省市代码:德国;DE

权利要求：

1.一种基于多媒体对象的语音交互的方法，所述方法包括以下步骤： S1)获取多媒体对象； S2)提取多媒体对象包含的信息； S3)将所提取的信息关联到至少一个语音技能模型；以及 S4)根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。 2.根据权利要求2所述的方法，其中，所述步骤S3包括：根据所提取的信息中的表征多媒体对象的主体身份的信息生成标识符；为所提取的信息中的附加信息分配所述标识符，使得所述附加信息及其关联的语音技能模型链接到所述主体身份。 3.根据权利要求1或2所述的方法，其中，所述步骤S3包括：将所提取的信息中的人员姓名、职业、物理地址、电子邮件地址、手机号码、固话号码关联到通讯录模型和/或日历模型；以及将所提取的信息中的物理地址关联到天气模型和/或导航模型。 4.根据权利要求1至3中任一项所述的方法，其中，所述步骤S3还包括：将多媒体对象的所提取的信息存储到语音技能模型的语料库中并作为训练数据来训练相应的语音技能模型。 5.根据权利要求1至4中任一项所述的方法，其中，所述步骤S2包括：借助光学字符识别技术识别多媒体对象中的文本字段；对所述文本字段进行预处理；对所述文本字段执行特征选择；以及按照预定义的标准对所选择的特征进行分类。 6.根据权利要求1至5中任一项所述的方法，其中，在步骤S4之前还执行以下步骤：将所关联的语音技能模型存储在云端并且与用户的身份信息进行绑定。 7.根据权利要求1至6中任一项所述的方法，其中，所述步骤S4包括：检测用户的语音指令中的第一字段信息和第二字段信息，所述第一字段信息表征用户意图，所述第二字段信息表征多媒体对象的主体身份；基于第一字段信息定向到至少一个语音技能模型，基于第二字段信息定向到所述语音技能模型的语料库中的条目，所述条目链接到所述主体身份；以及借助所述语音技能模型基于所述条目来提供语音服务。 8.一种基于多媒体对象的语音交互的系统(100)，所述系统用于执行根据权利要求1至7中任一项所述的方法，所述系统(100)包括：获取模块(110)，其配置成能够获取多媒体对象；提取模块(120)，其配置成能够提取多媒体对象包含的信息；处理模块(130)，其配置成将所提取的信息关联到至少一个语音技能模型；以及输出模块(140)，其配置成能够根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。 9.一种车辆，所述车辆具有根据权利要求8所述的系统(100)。 10.一种机器可读程序载体，在其上存储有计算机程序，所述计算机程序用于当其在计算机上运行时能够实施根据权利要求1至7中任一项所述的方法。

专利专题