基于随机森林的藏文文本分类
针对藏文文本及其语法和词法结构,采用条件随机场进行分词,利用人工统计和标注进行停用词词典建立,然后采用tf-idf的词向量空间,予以权重计算,最后采用随机森林算法构建分类器,进行文本分类.并使用查全率、查准率和F1值三种评价函数与逻辑回归、多项式朴素贝叶斯、支持向量机三种算法相比,结果显示,随机森林算法在高维特征的藏文文本分类上优于其他分类器.
藏文、条件随机场、TF-IDF、随机森林、文本分类
15
TP391(计算技术、计算机技术)
2018年大学生创新创业训练计划项目"基于随机森林的藏文文本分类"项目编号:2018XCX045
2020-03-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
178-180