基于汉字固有属性的中文字向量方法研究

引用

摘要：

中文短文本在如今高速发展的互联网应用中变得日趋重要,如何从海量短文本消息中挖掘出有价值的信息,已成为当前中文自然语言处理中非常重要且具有挑战性的课题.然而,采用传统的长文本处理方法进行分析往往得不到很好的效果,其根本原因在于中文短文本消息的语法及其语义的稀疏性.基于此,该文提出一种基于汉字笔画属性的中文字向量表示方法,并结合深度学习对短文本消息进行相似性计算.该方法结合中文汉字的构词和拼音属性,将中文汉字映射为一个仅32维的空间向量,最后使用卷积神经网络进行语义提取并进行相似性计算.实验结果表明,与现有的短文本相似性计算方法相比,该方法在算法性能及准确率上均有较大的提高.

关键词：短文本、中文字向量、深度学习

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

在线出版日期：2017-08-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：32-40

英文信息展示

期刊专题