10.3969/j.issn.1006-9348.2023.07.095
基于Python技术的半监督文本语义分类方法研究
针对传统方法存在的语义标注准确度不高,语义分类查全率较低以及语义特征提取能力不佳的问题,研究基于Python技术的半监督文本语义分类方法.利用Python编程技术通过调用接口和扩展库建立自动标注下的半监督文本语义分类模型,通过自动标注手段将初始文本标注后划分为训练文本和测试文本.经过文本预处理后,利用改进的CHI算法展开文本语义特征提取和归一化处理并输入到监督分类器内,使用支持向量机算法完成文本语义分类.实验结果表明,上述方法文本语义标注准确度高于 95%,标注精度高;词频曲线与实际词频曲线重合度较高,特征提取能力强;拟合误差低,受非线性问题影响小,且平均查全率为97.21%,说明所提方法的文本语义分类能力较好.
半监督、文本语义、支持向量机、自动标注、特征提取
40
TP181(自动化基础理论)
分布式数据库隐私信息增量式更新方法仿真2017ZY0725
2023-08-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
496-500