10.3969/j.issn.1000-3428.2008.08.031
基于分类的汉语语料库词性标注一致性检查
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题.该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料.
分类、词性标注、兼类词、词性标注一致性
34
TP391(计算技术、计算机技术)
国家自然科学基金60473139;山西省自然科学基金20051034;山西大学校科研和教改项目2006011
2008-06-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
90-92