基于最优文档嵌入的《红楼梦》作者辨析
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1003-0077.2020.09.013

基于最优文档嵌入的《红楼梦》作者辨析

引用
该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量.通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实.并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了"红楼梦"前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能.该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解.

红楼梦、作者识别、文档嵌入、最优维度

34

TP391(计算技术、计算机技术)

国家自然科学基金;数字出版技术国家重点实验室开放课题

2020-11-27(万方平台首次上网日期,不代表论文的发表时间)

共14页

97-110

相关文献
评论
暂无封面信息
查看本期封面目录

中文信息学报

1003-0077

11-2325/N

34

2020,34(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn