10.11772/j.issn.1001-9081.2021050711
基于多维度特征和深度学习模型的地址实体识别
地址实体识别是一项在智慧城市建设中应用极其广泛的基础性任务,而在实际的业务数据中,中文地址实体描述经常出现用字生僻、含义模糊、简称乱用等现象,导致现有的基于规则或者基于统计的识别方法,已经难以有效地解决语义层面的深层次地址实体识别问题.针对上述问题,提出了一种基于多维度特征和深度学习模型相结合的中文地址实体识别方法(Bi-LSTM-Self-Attention-CRF).首先,提取语料数据中地址实体的界限特征、词性特征、标签特征以及预先训练好的高维空间的字向量特征作为多维度特征;然后,采用双向的长短期记忆(Bi-LSTM)网络模型捕获输入的地址实体特征;接着,使用自注意力机制(Self-Attention)计算不同特征对地址实体的注意力权重,使用条件随机场(CRF)学习实体标签之间的转移概率矩阵;最后,使用维特比算法预测实体标签的最优序列.在相同的多维度特征基础上,与Bi-LSTM模型和Bi-LSTM-CRF模型相比,所提方法的识别精确率、召回率、F1值均优于对比算法,分别达到了0.891、0.880、0.885.实验结果表明,所提方法的精确率和召回率可以满足实际业务中对地址实体的识别要求.
智慧城市;地址实体识别;多维度特征;双向的长短期记忆网络;自注意力机制;条件随机场
41
TP183(自动化基础理论)
2022-03-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
48-53