DOI：10.11992/tis.201507065

词边界字向量的中文命名实体识别

引用

摘要：

常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征，但特征提取费时费力，是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖，构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中，自动抽取出蕴含其中的特征信息，生成字特征向量。同时考虑到汉字不是中文语义的最基本单位，单纯的字向量会由于一字多义造成语义的混淆，因此根据同一个字在词中处于不同位置大多含义不同的特点，将单个字在词语中所处的位置信息加入到字特征向量中，形成词边界字向量，将其用于深度神经网络模型训练之中。在Sighan Bakeoff?3（2006）语料中取得了F189．18％的效果，接近当前国际先进水平，说明了该系统不仅摆脱了对特征提取的依赖，也减少了汉字一字多义产生的语义混淆。

关键词：机器学习、中文命名体识别、深度神经网络、特征向量、特征提取

所属期刊栏目：11

分类号：TP391.1(计算技术、计算机技术)

资助基金：原创项目研发与非遗产业化资助项目 YC2015057．

在线出版日期：2016-04-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：37-42

英文信息展示

期刊专题