10.3969/j.issn.1672-9722.2023.06.003
基于ASBC模型的藏文自动分词方法研究
藏文分词是藏文自然语言处理的前提工作,其效果将影响藏文自然语言处理的下游任务.神经网络的兴起,使结合预训练语言模型的深度学习方法成为分词研究的主流.针对传统神经网络获取语义信息有限的问题,论文利用大规模藏文语料库构建ALBERT预训练语言模型,同时引入藏文音节特征融合的方法,提出了基于深度学习的ALBERT预训练与音节特征融合的双向长短时记忆条件随机场藏文分词模型(ALBERT-Syllable-BiLSTM-CRF,ASBC).实验在多主题数据集上进行,主要验证了ALBERT预训练语言模型和音节特征融合对藏文分词的有效性,最终模型分词效果得到明显提升.
藏文、自动分词、预训练、ALBERT、音节特征融合
51
TP391(计算技术、计算机技术)
科技部重点研发计划;西藏自治区科技创新基地自主研发项目;西藏大学研究生高水平人才培养计划项目
2023-10-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
1227-1230,1237