10.16208/j.issn1000-7024.2019.05.031
面向专利的主题短语提取
在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Generalized Pólya urn (GPU)的改进模型GW PhraseLDA.根据专利文本特点,使用BLSTM-CRF模型进行专利短语抽取,利用训练好的词向量生成先验知识.在Gibbs采样的迭代过程中,利用GPU策略提升语义相关短语在同一主题下的概率.在中文专利文本上的实验结果表明,所提模型能够有效提高专利主题生成质量,相比传统的主题模型更具可解释性和判别性.
专利挖掘、短语抽取、双向长短时记忆网络、条件随机场、主题模型
40
TP391(计算技术、计算机技术)
2019-08-02(万方平台首次上网日期,不代表论文的发表时间)
共6页
1365-1369,1382