唐诗题材自动分类研究
将文本分类技术引入唐诗研究.首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类,并据此提出唐诗题材自动分类模型.所选500首诗歌样本以《唐诗三百首》为基础,并有所补充.采用向量空间模型(VSM)将唐诗文本转换为向量,通过卡方检验进行词语特征选择,最后基于朴素贝叶斯和支持向量机算法构造文本分类器,取得较好的题材分类效果.此外,还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设,为相关诗歌本体研究提供了科学依据.
唐诗、题材、文本分类、卡方检验、朴素贝叶斯、支持向量机
51
H087(应用语言学)
863计划2012AA011104
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
262-268