10.13546/j.cnki.tjyjc.2018.13.027
基于朴素贝叶斯与BP网络神经分类方法的《红楼梦》文本特征差异研究
《红楼梦》的作者问题一直是红学研究的热点.本文运用R语言对《红楼梦》著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度分析《红楼梦》前八十回与后四十回文本特征的差异性.从高频词汇角度,通过制作分组高频词汇频数折线图,分析折线图的波动,初步表明《红楼梦》前八十回和后四十回文本特征存在差异;从虚字角度,通过监督学习方法中的朴素贝叶斯与BP神经网络,以虚字作为文本特征对《红楼梦》一百二十回作分类处理,并计算分类准确率,研究表明《红楼梦》前八十回和后四十回文本特征存在显著的差异.研究结果表明:《红楼梦》前八十回和后四十回作者不是同一个人.
文本分析、朴素贝叶斯、BP神经网络、红学
34
O212;I2(概率论与数理统计)
2018-08-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
121-125