10.3969/j.issn.1000-3428.2016.08.029
一种面向军事文本的领域特征词向量描述方法
针对军事文本信息中命名实体多、特征词领域性强的特性,提出一种领域特征词向量描述方法.从优化分词和领域特征词筛选方面压缩向量空间,完善时间、地名、部队名称和武器装备4类重要命名实体的提取规则,扩充分词词典库.改进领域相关度和领域一致度相结合的领域特征词筛选算法,突出领域特征词与常用词汇之间的差别,进一步过滤领域特征词.实验结果表明,优化分词后,该方法能够提取出军事文本中的命名实体和部分专有词汇,降低特征词数量,改进后的领域特征词筛选算法将准确率和召回率分别提高20%和16.7%,提出的领域特征词向量描述方法所生成的特征词向量具有较强的领域性.
军事文本、命名实体、向量空间、分词、领域特征词
42
TP311(计算技术、计算机技术)
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
160-165