10.19678/j.issn.1000-3428.0052123
维吾尔语停用词抽取方法研究
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果.针对该问题,提出一种应用于维吾尔语的停用词抽取方法.在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况.通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%.
信息检索、停用词、维吾尔语、文本分类、语料统计
45
TP391(计算技术、计算机技术)
国家社会科学基金17XYY034;教育部人文社会科学研究青年项目16XJJC740001
2019-11-11(万方平台首次上网日期,不代表论文的发表时间)
共6页
288-292,300