DOI：10.3969/j.issn.1002-0802.2022.02.003

基于Bi-LSTM的医学文本分词模型

引用

摘要：

中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务.由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一.因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型.该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54％,相比单独使用中文医学语料训练的分词模型,有比较明显的提升.

关键词：中文分词;自然语言处理;双向长短期记忆网络;领域分词

所属期刊栏目：55

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2022-03-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：151-159

英文信息展示

期刊专题