在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

引用

摘要：

本发明公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法，涉及语音合成及个性化语音合成技术领域，该方法包括：在手机或网页上输入文字；将文字合成为具有特殊音色特征的个性化声音；用户将个性化的声音设为彩铃或手机铃音，其中在个性化合成系统中采用的远离类中心单元的聚类方法这一新算法。利用本发明，可以实现用户制作个性化彩铃或个性化手机铃音的需求。

专利类型：发明专利

申请/专利号：CN201210578662.8

申请日期：2012-12-27

公开/公告号：CN103065620A

公开/公告日：2013-04-24

主分类号：G10L13/10(2013.01)I

申请/专利权人:安徽科大讯飞信息科技股份有限公司

发明/设计人:徐鹤林;江源;张磊;江涛;聂小林;胡国平;胡郁

主申请人地址:230088 安徽省合肥市高新开发区黄山路616

专利代理机构:北京科迪生专利代理有限责任公司 11251

代理人:杨学明

国别省市代码:安徽;34

权利要求：

一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法，其特征在于：步骤1）、音库准备：从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据，然后从视频中提取出音频数据；步骤2）、音段切分：需要语音分析下的自动分句结果和语音/非语音判断；步骤3）、声纹识别：需要做目标发音人判断；步骤4）、语音识别：使用普适行的语音识别模型，不做声学模型和语音模型的自适应，并利用识别结果输出切分信息、音素置信度和韵律词文本；步骤5）、文本分析：直接对识别文本做前端自动文本分析，分析文本得到拼音串和分词、L3/L4预测；步骤6）、系统搭建：结合音素置信度在统计建模和单元挑选阶段改进效果；步骤7）、人工调整：在人工调整的情况下改善合成句效果，保证重要的用例句子的效果，并判定音库的完备性，即在最理想情况下能达到的合成效果上限，预留系统进化能力；步骤8）、个性化声音转化：利用步骤1）至7）形成个性化声音合成系统，将文字合成为具有特殊音色特征的个性化声音；在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法，没有采用传统HMM??based合成系统中针对上下文信息构建基于maximum??likelihood准则的自上而下的决策分类树方法。

专利专题