汉语文本文采的特征体系构建及自动评估研究
文采是文本的重要属性,在写作实践与阅读体验中都发挥着重要的作用,但目前对汉语文本文采属性的量化研究仍存有不足.本文基于已有研究,构建了一个适用于评价汉语文本文采的语言特征体系,并基于机器学习模型考察了该体系在不同来源、粒度以及文采混合程度语料上的文采自动评估效果.实验结果表明:(1)本文所建立的特征体系对不同类型的文本具有普遍适应性,能够有效地对汉语文本文采进行评估与判断(在不同语料中的加权F1值可达89.94%与78.25%);(2)形体、语义层面的语言特征能够显著影响文采自动评估的效果,而语音层面的语言特征影响则较小,其中影响最大的特征维度为语言多样性、语言熟悉度、语言复杂度、语义具象性与语篇辞格,关键性特征为平均对数字频、平均词汇习得等级、辞格平均使用数、平均词义具体值、未登录词比例、人称代词比例、语义分布与感官形容词比例8项语言指标.
汉语文本文采、语言特征、机器学习、文采自动评估
H087(应用语言学)
教育部人文社会科学研究项目;北京语言大学梧桐创新平台;研究生创新基金项目
2023-06-08(万方平台首次上网日期,不代表论文的发表时间)
共15页
130-144