一种音频和文本的同步方法、装置、设备以及介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种音频和文本的同步方法、装置、设备以及介质

引用
本公开涉及音频和文本的同步方法、装置、设备以及介质。方法包括:由初始文本确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;将各第一文本片段转换为音频片段,得到第一文本片段与音频片段的第一映射关系;将各第一文本片段与第二文本进行匹配,得到第一文本片段与第二文本片段的第二映射关系;基于第一映射关系和第二映射关系,确定与各音频片段相同步的第二文本片段。由此,通过将第一文本片段转换为音频片段,并将第一文本片段与第二文本进行匹配,可确定与音频片段相同步的第二文本片段,而第二文本片段用于阅读展示,音频片段用于朗读,可解决在朗读时无法展示匹配的文本或展示的文本与朗读内容存在偏差的问题。

发明专利

CN202110350637.3

2021-03-31

CN113096635A

2021-07-09

G10L13/02(2013.01)

北京字节跳动网络技术有限公司

熊佳新;冯宏;曾豪;张同新

100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

北京开阳星知识产权代理有限公司

祝乐芳

北京;11

1.一种音频和文本的同步方法,其特征在于,包括: 确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;其中,所述多个第一文本片段和所述第二文本来自初始文本; 将各所述第一文本片段转换为音频片段,得到所述第一文本片段与所述音频片段之间的第一映射关系; 将各所述第一文本片段与所述第二文本进行匹配,得到所述第一文本片段与所述第二文本中的第二文本片段之间的第二映射关系; 基于所述第一映射关系和所述第二映射关系,确定与各所述音频片段相同步的第二文本片段。 2.根据权利要求1所述的方法,其特征在于,所述将各所述第一文本片段与所述第二文本进行匹配,包括: 基于各所述第一文本片段中的一个或多个符号以及所述第二文本中的一个或多个符号,将各所述第一文本片段与所述第二文本进行匹配。 3.根据权利要求2所述的方法,其特征在于,所述基于各所述第一文本片段中的一个或多个符号以及所述第二文本中的一个或多个符号,将各所述第一文本片段与所述第二文本进行匹配,包括: 删除所述第二文本中的符号,得到第三文本; 针对各所述第一文本片段: 删除该第一文本片段中的符号,得到第一临时文本片段; 在所述第三文本中查找与所述第一临时文本片段相同的第二临时文本片段; 在所述第二文本中,查找与所述第二临时文本片段前相邻的第一符号,以及与所述第二临时文本片段后相邻的第二符号; 基于所述第一符号和所述第二符号,确定所述第二文本中与该第一文本片段匹配的第二文本片段。 4.根据权利要求3所述的方法,其特征在于,所述基于所述第一符号和所述第二符号,确定所述第二文本中与该第一文本片段匹配的第二文本片段,包括: 基于该第一文本片段,确定与该第一临时文本片段前相邻的第三符号,以及与该第一临时文本片段后相邻的第四符号; 将所述第一符号和所述第二符号分别与所述第三符号和所述第四符号进行匹配; 基于所述匹配的结果确定所述第二文本中与该第一文本片段匹配的第二文本片段。 5.根据权利要求4所述的方法,其特征在于,所述基于所述匹配的结果确定所述第二文本中与该第一文本片段匹配的第二文本片段,包括: 若所述匹配的结果为:所述第一符号与所述第三符号相同,且所述第二符号与所述第四符号相同,则确定该第二文本片段的起始位置为所述第一符号,且结束位置为所述第二符号; 若所述匹配的结果为:所述第一符号与所述第三符号相同,且所述第二符号与所述第四符号不同,则确定该第二文本片段的起始位置为所述第一符号,且结束位置为该第二文本片段的片尾; 若所述匹配的结果为:所述第一符号与所述第三符号不同,且所述第二符号与所述第四符号相同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为所述第二符号; 若所述匹配的结果为:所述第一符号与所述第三符号不同,且所述第二符号与所述第四符号不同,则确定该第二文本片段的起始位置为该第二文本片段的片首,且结束位置为该第二文本片段的片尾。 6.根据权利要求3所述的方法,其特征在于,所述方法还包括: 若在所述第三文本中未查找到与所述第一临时文本片段相同的第二临时文本片段,则将该第一文本片段与下一个第一文本片段合并,得到合并文本片段; 确定该第一文本片段的上一个第一文本片段在所述第二文本中的结束位置为所述合并文本片段在所述第二文本中的起始位置; 确定所述下一个第一文本片段在所述第二文本中的结束位置为所述合并文本片段在所述第二文本中的结束位置。 7.根据权利要求1所述的方法,其特征在于,所述确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本包括: 获取初始文本,并基于所述初始文本确定用于音频转换的第一文本和用于阅读展示的第二文本; 将所述第一文本拆分为多个第一文本片段。 8.根据权利要求7所述的方法,其特征在于,所述基于所述初始文本确定用于音频转换的第一文本和用于阅读展示的第二文本,包括: 将所述初始文本进行第一文本规范处理,得到所述第一文本; 将所述初始文本进行第二文本规范处理,得到所述第二文本。 9.根据权利要求8所述的方法,其特征在于,所述第一文本规范处理包括以下一个或多个:删除所述初始文本中满足第一预设条件的目标内容、截断超出长度阈值的句子; 所述第二文本规范处理包括:删除所述初始文本中满足第二预设条件的目标内容。 10.根据权利要求1所述的方法,其特征在于,所述将所述第一文本拆分为多个第一文本片段,包括: 确定所述第一文本中的一个或多个符号,基于所述符号对所述第一文本进行拆分,得到所述多个第一文本片段。 11.根据权利要求1所述的方法,其特征在于,所述方法还包括: 将各所述音频片段合成为完整音频,并确定各所述音频片段在所述完整音频中的音频起始时间; 基于与各所述音频片段相同步的第二文本片段,确定所述音频起始时间与所述第二文本片段在所述第二文本中的文本起始位置的同步关系。 12.根据权利要求11所述的方法,其特征在于,所述方法还包括:将所述完整语音、所述第二文本和所述同步关系进行关联,得到关联关系。 13.一种音频和文本的同步方法,其特征在于,所述方法包括: 获取多个音频片段,以及获取与各所述音频片段相同步的文本片段; 响应播放操作,播放一个或多个所述音频片段; 在播放的同时,展示与播放的音频片段相同步的文本片段。 14.一种音频和文本的同步装置,其特征在于,包括: 第一确定单元,用于确定用于音频转换的多个第一文本片段和用于阅读展示的第二文本;其中,所述多个第一文本片段和所述第二文本来自初始文本; 转换单元,用于将各所述第一文本片段转换为音频片段,得到所述第一文本片段与所述音频片段之间的第一映射关系; 匹配单元,用于将各所述第一文本片段与所述第二文本进行匹配,得到所述第一文本片段与所述第二文本中的第二文本片段之间的第二映射关系; 第二确定单元,用于基于所述第一映射关系和所述第二映射关系,确定与各所述音频片段相同步的第二文本片段。 15.一种音频和文本的同步装置,其特征在于,包括: 获取单元,用于获取多个音频片段,以及获取与各所述音频片段相同步的文本片段; 播放单元,用于响应播放操作,播放一个或多个所述音频片段; 展示单元,用于在播放的同时,展示与播放的音频片段相同步的文本片段。 16.一种电子设备,其特征在于,包括处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至13任一项所述方法的步骤。 17.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至13任一项所述方法的步骤。
相关文献
评论
法律状态详情>>
2021-07-09公开
2021-07-09公开
相关作者
相关机构