文本到语音的方法和系统

引用

摘要：

一种文本到语音的方法，用于模拟多个不同的声音特性，包括：输入文本；将所输入的文本划分成声学单元序列；选择用于所输入的文本的声音特性；使用声学模型，将声学单元序列转换成语音向量序列，其中模型具有多个模型参数，其描述将声学单元与语音向量有关的概率分布；输出语音向量序列，作为具有所选择的声音特性的音频；其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中，所使用的权重是依赖声音特性的，以使得将声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取声音特性依赖权重，以使得每个子聚类有一个权重。

专利类型：发明专利

申请/专利号：CN201310081220.7

申请日期：2013-03-14

公开/公告号：CN103310784A

公开/公告日：2013-09-18

主分类号：G10L13/027(2013.01)I

申请/专利权人:株式会社东芝

发明/设计人:赤岭政巳;L-M·哈维尔;W·V·P·梁;C·K·康;G·M·J·弗朗西斯;K·K·马里;C·B·哈

主申请人地址:日本东京都

专利代理机构:北京市中咨律师事务所 11247

代理人:刘薇%杨晓光

国别省市代码:日本;JP

权利要求：

一种文本到语音的方法，用于模拟多个不同的声音特性，所述方法包括：输入文本；将所输入的文本划分成声学单元序列；选择用于所输入的文本的声音特性；使用声学模型，将所述声学单元序列转换成语音向量序列，其中所述模型具有多个模型参数，其描述将声学单元与语音向量相关的概率分布；以及输出所述语音向量序列，作为具有所选择的声音特性的音频；其中，在所选择的声音特性中每个概率分布的预定类型的参数被表示为相同类型的参数的加权和，其中所使用的权重是依赖声音特性的，以使得将所述声学单元序列转换成语音向量序列包括获取用于所选择的声音特性的声音特性依赖权重，其中，所述参数在聚类中提供，每个聚类包括至少一个子聚类，其中对于每个聚类，获取所述声音特性依赖权重，以使得每个子聚类有一个权重。

专利专题