10.3969/j.issn.1000-565X.2017.03.009
基于双向长短时记忆模型的中文分词方法
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCityU)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.
深度学习、神经网络、双向长短时记忆、中文分词
45
TP391(计算技术、计算机技术)
国家自然科学基金青年基金资助项目61601042 Supported by the National Natural Science Foundation of China for Young Scientists61601042
2017-07-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
61-67