DOI：10.16208/j.issn1000-7024.2019.05.031

面向专利的主题短语提取

引用

摘要：

在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Generalized Pólya urn (GPU)的改进模型GW PhraseLDA.根据专利文本特点,使用BLSTM-CRF模型进行专利短语抽取,利用训练好的词向量生成先验知识.在Gibbs采样的迭代过程中,利用GPU策略提升语义相关短语在同一主题下的概率.在中文专利文本上的实验结果表明,所提模型能够有效提高专利主题生成质量,相比传统的主题模型更具可解释性和判别性.

关键词：专利挖掘、短语抽取、双向长短时记忆网络、条件随机场、主题模型

所属期刊栏目：40

分类号：TP391(计算技术、计算机技术)

在线出版日期：2019-08-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1365-1369,1382

英文信息展示

期刊专题