一种信息交互方法、装置、可读存储介质和电子设备

引用

摘要：

本发明实施例提供了一种信息交互方法、装置、存储介质和电子设备。本发明实施例的技术方案通过获取文本信息以及与文本信息对应的跟读音频流，根据文本信息对应的标准音素确定跟读音频流中的错误音素，根据错误音素确定纠正信息，将纠正信息发送给跟读者。由此，本发明实施例的技术方案能够根据跟读者的语言水平输出纠正信息。

专利类型：发明专利

申请/专利号：CN202011506819.7

申请日期：2020-12-18

公开/公告号：CN112634862A

公开/公告日：2021-04-09

主分类号：G10L13/027(2013.01)

申请/专利权人:北京大米科技有限公司

发明/设计人:徐培来;陈昌儒;包英泽;杨惠;吴雨璇

主申请人地址:100142 北京市海淀区清河安宁庄东路18号23号楼二层2223

专利代理机构:北京睿派知识产权代理事务所(普通合伙)

代理人:刘锋

国别省市代码:北京;11

权利要求：

1.一种信息交互方法，其特征在于，所述方法包括：获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流；根据所述文本信息确定所述跟读音频流中的错误音素；根据所述错误音素确定纠正信息；输出所述纠正信息。 2.根据权利要求1所述的信息交互方法，其特征在于，所述根据所述文本信息确定所述跟读音频流中的错误音素方法包括：获取所述文本信息对应的标准音素集合；获取所述跟读音频流对应的跟读音素集合；将所述跟读音素集合与所述标准音素集合进行比较，获得所述跟读音频流中的错误音素。 3.根据权利要求1所述的信息交互方法，其特征在于，所述根据所述错误音素确定纠正信息包括：根据所述错误音素确定所述目标音素，所述目标音素表征所述文本信息在对应位置的标准发音；根据所述目标音素在所述文本信息中的对应关系，确定与目标音素对应的纠正信息。 4.根据权利要求1所述的信息交互方法，其特征在于，所述纠正信息包括纠正文本；所述输出所述纠正信息包括：将所述纠正文本输入语音合成模型，合成为教读发音；输出所述教读发音。 5.根据权利要求4所述的信息交互方法，其特征在于，所述将所述纠正文本输入语音合成模型，合成为教读发音包括：将所述跟读音频流输入语速预测模型，预测出所述跟读者的语速特征；将所述语速特征和所述纠正文本输入语音合成模型，合成为教读发音。 6.根据权利要求4所述的信息交互方法，其特征在于，所述将所述纠正文本输入语音合成模型，合成为教读发音包括：根据指定时长和所述纠正文本输入语音合成模型，合成为教读发音；其中，所述指定时长大于跟读者的发音时长。 7.根据权利要求5或6所述的信息交互方法，其特征在于，所述合成为教读发音还包括: 获取指定的发音标签，根据所述发音标签，在合成教读发音时调整与所述错误音素对应的目标音素在所述教读发音中的发音强度。 8.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：获取教读发音的时间戳，根据教读发音的时间戳排列教学人物的动画帧，合成为教学视频；输出所述教学视频。 9.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：渲染所述纠正文本以确定详细信息；输出渲染后的所述纠正文本。 10.根据权利要求4所述的信息交互方法，其特征在于，所述输出所述纠正信息还包括：确定所述跟读音频流的分值；输出所述跟读音频流的分值。 11.一种信息交互装置，其特征在于，所述装置包括：接收模块，用于获取文本信息以及跟读音频流，所述跟读音频流为跟读者根据所述文本信息发音的音频流；评测模块,用于根据所述文本信息确定所述跟读音频流中的错误音素；纠错模块，用于根据所述错误音素确定纠正信息；教学输出模块，用于输出所述纠正信息。 12.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。 13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10中任一项所述的方法。

专利专题