基于词汇聚类方法的现代汉语分期与分期体系构建
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1003-0077.2017.06.004

基于词汇聚类方法的现代汉语分期与分期体系构建

引用
当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动至1949年、1950—1966年、1967—1976年和1977—至今四个时期,并在这一基础上开展了许多研究.语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律.从语言数据出发对语言进行分期是更加合适的选择.该文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题.该文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇.使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945—2015)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树.据此构建了过去70年现代汉语的词汇层次分期模型,揭示了改革开放的开始作为词汇使用变迁最重要分水岭的地位.

现代汉语、分期、词汇、历史演变、聚类

31

TP391(计算技术、计算机技术)

北京市语言资源高精尖创新中心项目TYR17001J;北京语言大学校级项目中央高校基本科研业务费专项基金17PT05、16YBB16;国家语委重点规划项目ZDI135-3;教育部人文社科重点研究基地重大项目16JJD740004

2018-06-01(万方平台首次上网日期,不代表论文的发表时间)

共7页

18-24

相关文献
评论
暂无封面信息
查看本期封面目录

中文信息学报

1003-0077

11-2325/N

31

2017,31(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn