文献中的词型分区规律与高频特征词的发现
为了发现文献中的词型分布规律,找出能够代表文献主题内容和语言风格的高频特征词,本文对语料中的词型按出现频次降序排列,再均分成几个词例数目相等的分区,分析其中的词型数量规律.研究发现,按这种方法把词型分成三个、四个、五个分区时,分区之间的词型数量关系是有规律的.增加同质语料的规模,对于词型序列前几个分区的词型数量变化影响微小,而对于最后一个分区的词型数量变化影响较大.本文提出按照“二八定律”来区分高频词与其他词,并提出通过比较高频词型在特定文献与其他多个文献中的等级差异,得到词型的特征系数,自动发现特定文献中的高频特征词.
词型、布拉德福定律、二八定律、齐普夫定律
H087(应用语言学)
江苏省社科基金项目“语料库通用技术研究”15YYC001
2018-09-28(万方平台首次上网日期,不代表论文的发表时间)
共10页
124-133