10.3969/j.issn.1003-0077.2017.06.004
基于词汇聚类方法的现代汉语分期与分期体系构建
当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动至1949年、1950—1966年、1967—1976年和1977—至今四个时期,并在这一基础上开展了许多研究.语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律.从语言数据出发对语言进行分期是更加合适的选择.该文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题.该文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇.使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945—2015)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树.据此构建了过去70年现代汉语的词汇层次分期模型,揭示了改革开放的开始作为词汇使用变迁最重要分水岭的地位.
现代汉语、分期、词汇、历史演变、聚类
31
TP391(计算技术、计算机技术)
北京市语言资源高精尖创新中心项目TYR17001J;北京语言大学校级项目中央高校基本科研业务费专项基金17PT05、16YBB16;国家语委重点规划项目ZDI135-3;教育部人文社科重点研究基地重大项目16JJD740004
2018-06-01(万方平台首次上网日期,不代表论文的发表时间)
共7页
18-24