基于最大熵模型的介词纠错系统

引用

摘要：

英语介词纠错系统,针对英语学习者英语语言中常见的介词错误进行计算机自动纠正.首先,对标注过得语料库中介词错误进行了分类统计,总结出21种常见介词,在英语wiki语料库中利用计算机自动错误插值算法获得训练集合.然后在训练集合基础之上,通过使用基于最大熵模型的分类器,选择了包括上下文、介词补足语等特征,在训练集上进行模型的训练,最后使用模型对于输入句子进行预测并纠正存在的使用错误.在NUCLE语料的实验中,给出了语料处理、模型特点、训练语料的大小、迭代次数对于测试集效果的影响,并且比较了朴素贝叶斯模型的结果,最后在测试数据达到27.68的F值,相对于CoNLL2013的shared task中最好结果有小幅提升.

关键词：介词错误、计算机自动纠正、最大熵模型

所属期刊栏目：25

分类号：TP3;X17

在线出版日期：2016-08-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：96-100

英文信息展示

期刊专题