10.3969/j.issn.1673-8578.2021.02.003
基于自注意力机制的科技术语自动提取技术研究
科技术语提取是科技术语自动处理的重要环节,对后续的机器翻译、信息检索、QA问答等任务有重要意义.传统的人工科技术语提取方法耗费大量的人力成本.而一种自动提取科技术语方法是将术语提取转化为序列标注问题,通过监督学习方法训练出标注模型,但是面临缺乏大规模科技术语标注语料库的问题.文章引入远程监督的方法来产生大规模训练标注语料.另外又提出基于自注意力机制的Bi-LSTM的模型架构来提高科技术语提取结果.发现新模型在发现新的科技术语的能力上远远优于传统机器学习模型(CRF).
科技术语提取、远程监督、自注意力
23
TP391;N04;H083(计算技术、计算机技术)
国家自然科学基金项目"基于深度学习的数据-文本生成技术研究";全国科学技术名词审定委员会科研项目"基于深度学习的科技术语提取技术研究"
2021-04-14(万方平台首次上网日期,不代表论文的发表时间)
共7页
20-26