10.16208/j.issn1000-7024.2019.11.010
Centroid和EM结合的半监督文本分类
针对维吾尔文文本分类中的“标注瓶颈”问题,研究半监督文本分类.将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分类器下,结合少量已标注样本和大量未标注样本来提高分类器性能的问题.在维吾尔文文本数据集上的实验结果表明,未标注样本的加入能够改善基于Centroid的分类方法在维吾尔文文本数据集上的分类效果.
质心向量、期望最大化、半监督学习、文本分类、维吾尔文
40
TP391.1(计算技术、计算机技术)
新疆维吾尔自治区自然科学基金项目2016D01C068
2020-01-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
3118-3123