DOI：10.3969/j.issn.1003-0077.2023.01.006

藏文文本分类特征基元选择

引用

摘要：

文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值.现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器.由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响.该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性.

关键词：自然语言处理、藏文、基元、文本分类

所属期刊栏目：37

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;青海省科技厅资助项目;长江学者;创新团队发展计划创新团队资助项目;教育部重点实验室基金;教育部重点实验室基金;教育部重点实验室基金;青海省藏文信息处理与机器翻译重点实验室项目

在线出版日期：2023-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：64-70

英文信息展示

期刊专题