用于输出信息的方法和装置

引用

摘要：

本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括：获取对目标用户讲话的场景进行拍摄所获得的视频；对视频进行处理，获得包括目标字幕的第一结果视频；生成用于表征视频中的音频的优劣程度的评测结果；输出评测结果和第一结果视频。该实施方式可以在向用户反馈评测结果的同时，将记录了用户读讲话的过程的视频反馈给用户，提高了信息输出的多样性；并且，上述视频可以为用户学习嘴型等除发音以外的内容提供参考，进而有助于用户进行更为全面的语言学习。

专利类型：发明专利

申请/专利号：CN202010154003.6

申请日期：2020-03-06

公开/公告号：CN112309391A

公开/公告日：2021-02-02

主分类号：G10L15/22(2006.01)

申请/专利权人:北京字节跳动网络技术有限公司

发明/设计人:不公告发明人

主申请人地址:100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

专利代理机构:北京海智友知识产权代理事务所(普通合伙)

代理人:巩靖

国别省市代码:北京;11

权利要求：

1.一种用于输出信息的方法，包括：获取对目标用户讲话的场景进行拍摄所获得的视频；对所述视频进行处理，获得包括目标字幕的第一结果视频；生成用于表征所述视频中的音频的优劣程度的评测结果；输出所述评测结果和所述第一结果视频。 2.根据权利要求1所述的方法，其中，所述输出所述评测结果和所述第一结果视频包括：将所述评测结果添加到所述第一结果视频中，获得第二结果视频；输出所述第二结果视频。 3.根据权利要求1所述的方法，其中，所述对所述视频进行处理，获得包括字幕的第一结果视频包括：对所述视频中的音频进行识别，获得识别文本；基于所述识别文本，生成所述音频所对应的目标字幕；将所述目标字幕添加到所述视频中，获得第一结果视频。 4.根据权利要求3所述的方法，其中，所述基于所述识别文本，生成所述音频所对应的目标字幕包括：从所述识别文本包括的文字中确定与预设文本包括的文字不匹配的文字作为目标文字；基于所述识别文本，生成所述音频所对应的初始字幕；将所述初始字幕中的目标文字的格式调整为目标格式，获得所述音频所对应的目标字幕。 5.根据权利要求4所述的方法，其中，所述生成用于表征所述视频中的音频的优劣程度的评测结果包括：基于所确定的目标文字的数量，对所述音频进行评测，获得用于表征所述音频的优劣程度的评测结果。 6.根据权利要求1所述的方法，其中，所述生成用于表征所述视频中的音频的优劣程度的评测结果包括：将所述音频输入预先训练的流利度评测模型，获得用于表征所述音频的流利程度的评测结果。 7.根据权利要求1所述的方法，其中，所述生成用于表征所述视频中的音频的优劣程度的评测结果包括：生成用于表征所述视频中的音频的优劣程度的第一评测结果和第二评测结果；以及所述输出评测结果包括：输出第一评测结果；响应于接收到针对所述第二评测结果的获取请求，输出所述第二评测结果。 8.根据权利要求7所述的方法，其中，所述第二评测结果包括以下至少一项：所述目标用户读错的单词、所述目标用户读错的单词的数量、所述目标用户读错的单词所在的句子。 9.根据权利要求1所述的方法，其中，所述生成用于表征所述视频中的音频的优劣程度的评测结果包括：将所述视频发送给目标终端，获取所述目标终端的用户利用目标终端输入的、用于表征所述视频中的音频的优劣程度的评测结果。 10.一种用于输出信息的装置，包括：获取单元，被配置成获取对目标用户讲话的场景进行拍摄所获得的视频；处理单元，被配置成对所述视频进行处理，获得包括目标字幕的第一结果视频；生成单元，被配置成生成用于表征所述视频中的音频的优劣程度的评测结果；输出单元，被配置成输出所述评测结果和所述第一结果视频。 11.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。 12.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

专利专题