混合信息双数组的未登录词动态识别模型
未登录词是影响命名实体识别效果的重要因素,现有分词工具在处理未登录词时不仅识别效果欠佳,且存在识别时间较长等问题.为提高分词效果,在现有分词器基础上结合未登录词识别模型,提出了一种基于改进双数组Trie的混合信息未登录词动态识别模型MIDAT,将双数组Trie扩展为字符双数组与概率双数组,利用字符双数组存储字符串词段信息,概率双数组存储字符串节点间的成词概率信息,通过不断识别未登录词,动态更新两个双数组Trie.实验结果表明,在相同的数据集下,结合MIDAT的分词器后对于未登录词的分词效果要优于结巴等常用分词器,同时在时间效率上相比传统的未登录词识别模型提升约8倍.
未登录词;双数组Trie;互信息;信息熵;N-gram
17
TP18(自动化基础理论)
广东省自然科学基金NO.2018A030313934
2021-10-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
1-5,13