10.3969/j.issn.1673-629X.2023.09.018
基于多层次特征提取的中文医疗实体识别
中文医疗实体识别是医疗领域文本信息处理的基础,但中文医疗文本中常常存在语法不规范、实体嵌套和类型易混淆等问题易造成实体识别精度下降,因此确保中文医疗实体识别的准确度具有较大的理论研究和实际应用价值.为此,提出一种融合BERT预训练、双向长短期记忆网络(BILSTM)和结合注意力机制的空洞卷积网络(IDCNN)的实体识别模型来提升中文医疗实体识别的精度.起先,使用BERT预训练语言模型使中文字符转换为词向量并增强其语法语义特征;而后将训练好的词向量分别通过BILSTM网络和加入注意力机制的IDCNN网络获取上下文信息和更大的感受野;最终将蕴含语法语义特征、上下文信息和更大的感受野信息的特征融合并输入到条件随机场(CRF)中进行实体预测.在两个公开的医疗数据集CMeEE/Yidu-S4K上的实验表明,该模型的F1 值分别达到了0.711 6 和0.820 6,较主流模型分别提高了1.40 百分点和2.29 百分点,验证了此模型在中文医疗实体识别上的有效性.
实体识别、BERT预训练、空洞卷积网络、注意力机制、感受野
33
TP391(计算技术、计算机技术)
国家自然科学基金61502359
2023-09-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
119-125