一种基于class-base语言模型的POI语音识别方法

引用

摘要：

本发明涉及一种基于class-base语言模型的POI语音识别方法，步骤为：准备模型训练的文本；通用POI地点语言模型训练；多种说法的整理和设计，通过收集POI搜索用户的说法习惯并按行进行整理，模拟真实用户的说法和使用需求；说法文本的整理和类的利用；语言模型插值合并，合并后语言模型打包并用于语音识别，对合并之后的模型打包形成二进制的格式，方便保密和保存，生成可供语音识别使用的格式。本发明能够在十分有限的计算资源和存储空间的情况下，实现多种说法的支持，明确区分说法和核心词汇，在保证占用较小资源的前提下，提高识别效果。

专利类型：发明专利

申请/专利号：CN201310342171.8

申请日期：2013-08-07

公开/公告号：CN103456300A

公开/公告日：2013-12-18

主分类号：G10L15/08(2006.01)I

申请/专利权人:安徽科大讯飞信息科技股份有限公司

发明/设计人:唐立亮;鹿晓亮

主申请人地址:230088 安徽省合肥市高新开发区望江西路666号

专利代理机构:北京科迪生专利代理有限责任公司 11251

代理人:成金玉%贾玉忠

国别省市代码:安徽;34

权利要求：

一种基于class‑base语言模型的POI语音识别方法，其实现步骤如下：（1）准备模型训练的文本从网络上获取的识别相关地点信息的文本进行清洗，除去文本中的错字和乱码，再将希腊数字、阿拉伯数字转换为汉字，并将文本的编码格式设置一致；（2）通用POI地点语言模型训练（21）将步骤（1）中整理后的地点信息文本训练成统计语言模型，具体为：首先需要分词操作，有一个分词词典，即包含所有用户可能说的词语和字的列表；将每一行文本在词典中查找这些汉字或者字母能够形成的词的序列，实现分词，将分词之后的结果用空格隔开；（22）将分词之后的文本中的词序列信息提取出来，提取的信息存储到词典树中，所述词典树即是N‑Gram模型，所述统计语言模型即N‑Gram模型称之为POI地点模型；（3）多种说法的整理和设计，通过收集POI搜索用户的说法习惯并按行进行整理，模拟真实用户的说法和使用需求；（4）说法文本的整理和类的利用，将用户的说法文本整理好后，将其中不同的类别的地名用类别标示符表示出来，将类别标示符对应的各个地点信息文本中的各个地点名称按照开头和结尾的词不同进行分类，同时选择开头相同或者结尾相同的每类中选取出一个频率最大的词，作为此类的代表；由于统计语言模型关注的词序列信息，其中相邻两个词的词序列信息是最重要的，所以选出的频率最大的词即是这类的代表，用这些代表来扩展文本，扩展后的文本称之为说法文本，该说法文本是训练说法模型的语料；（5）将步骤（4）中的说法文本，按照步骤（2）中训练通用POI地点语言模型的方法，训练成统计语言模型，称之为说法模型；（6）语言模型插值合并，把步骤（2）通用POI地点语言模型和步骤（5）中的说法模型插值，即将地点模型和说法模型合并起来；（7）将步骤（6）中得到的合并后语言模型打包并用于语音识别，对合并之后的模型打包形成二进制的格式，方便保密和保存，生成可供语音识别使用的格式。

专利专题