基于线性分析的日语文本分类模型构建研究

引用

摘要：

本文以涵盖日常会话、会议发言、小说、议论文、政府白皮书以及新闻报道等多个类型的训练组文本为对象,统计其名词比、数词比、接续词句比等22项数据,将其作为文本表示方式进行线性分析,从中选取14项具有显著判别能力的指标,确定了其权重,由此构建基于Bayes分类函数的文本分类模型.观察这14项典型指标可知,除词汇占比类数据外,句长等指标也能够成为文本分类的有效依据.经测试,在绝大多数情况下,该模型的分类准确率都高于85％,召回率都高于81％,实现了以较小的运算量达到较高分类精度的目标.

关键词：文本分类、线性分析、日语、文本特征、贝叶斯

分类号：H319.3(英语)

资助基金：国家社会科学基金19BYY201

在线出版日期：2020-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：97-102,112

英文信息展示

期刊专题