基于线性分析的日语文本分类模型构建研究
本文以涵盖日常会话、会议发言、小说、议论文、政府白皮书以及新闻报道等多个类型的训练组文本为对象,统计其名词比、数词比、接续词句比等22项数据,将其作为文本表示方式进行线性分析,从中选取14项具有显著判别能力的指标,确定了其权重,由此构建基于Bayes分类函数的文本分类模型.观察这14项典型指标可知,除词汇占比类数据外,句长等指标也能够成为文本分类的有效依据.经测试,在绝大多数情况下,该模型的分类准确率都高于85%,召回率都高于81%,实现了以较小的运算量达到较高分类精度的目标.
文本分类、线性分析、日语、文本特征、贝叶斯
H319.3(英语)
国家社会科学基金19BYY201
2020-04-10(万方平台首次上网日期,不代表论文的发表时间)
共7页
97-102,112