基于级联重排序的汉语音字转换

引用

摘要：

N 元语言模型是解决汉字音字转换问题最常用的方法。但在解析过程中，每一个新词的确定只依赖于前面的邻近词，缺乏长距离词之间的句法和语法约束。我们引入词性标注和依存句法等子模型等来加强这种约束关系，并采用两个重排序方法来利用这些子模型提供的信息：1)线性重排序方法，采用最小错误学习方法来得到各个子模型的权重，然后产生候选词序列的概率；2)采用平均感知器方法对候选词序列进行重排序，能够利用词性、依存关系等复杂特征。实验结果显示，两种方法都能有效地提高词N 元语言模型的性能。而将这两种方法进行级联，即首先采用线性重排序方法，然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优。

关键词：汉语音字转换、重排序、最小错误学习、感知器方法

分类号：TP3;H12

资助基金：国家科技部重大科技专项2011ZX03002-004-01;深圳市基础研究重点项目JC201104210032A, JC201005260112A资助@@@@Supported by Key Science and Technology Projects of the Min-istry of National Science and Technology2011ZX03002-004-01;Shenzhen Basic Research Key ProjectJC201104210032A, JC201005260112A

在线出版日期：2014-05-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：624-634

英文信息展示

期刊专题