数据挖掘技术在文本特征分析中的应用研究——以夏目漱石中长篇小说为例

引用

摘要：

本研究运用数据挖掘技术对夏目漱石的中长篇小说进行聚类分析,发现以1908年为界,夏目漱石的中长篇小说可分为三个时期.t检验结果显示,这些作品在名词比、动词比、修饰词比、MVR等指标方面表现较为一致.早期和过渡期作品在接续词句比、非过去式句比方面,过渡期和后期作品在非过去式结句比方面,前期和后期作品在接续词句比、非过去式句比方面存在显著性差异.对指标进行标准化后发现,它们的共性特征在于文本偏重描写,且倾向于状况描写.前期作品的句子极短,容易理解.之后的作品句子逐渐变长,但仍偏短、易懂.句子间关联性不断增强,前后意思联系更加密切,表达更加富有逻辑性.在叙事方式方面,由生动描写转向客观描写,发生了由第一人称视角向第三人称视角的转换.

关键词：数据挖掘、聚类分析、日本文学、文本特征

分类号：H319.3(英语)

在线出版日期：2019-05-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：8-15

英文信息展示

期刊专题