基于Bi-LSTM与CRF的泰语句子切分模型

引用

摘要：

在自然语言处理领域中,对于泰语等东南亚语言的分句处理是一项具有挑战性的工作.将序列标注模型应用于句子切分任务,提出基于双向长短期记忆循环神经网络的句子边界自动识别模型.利用Glove词向量技术,将泰语句子中的词或字转换为不同维度的向量,进而将词或字向量组合成为句子向量输入模型进行训练.在此基础上,通过双向网络结构捕捉上下文信息以达到更好的句子切分效果.实验结果表明,该模型在泰语句子切分任务上表现出非常精准的识别效果.

关键词：自然语言处理、句子切分、深度学习、循环神经网络、长短期记忆网络、泰语

所属期刊栏目：46

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金61672138

在线出版日期：2020-11-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：294-300

英文信息展示

期刊专题