10.3969/j.issn.1000-1220.2020.07.009
基于Skip-PTM的网页主题分类与主题变迁的研究
概率主题模型与词向量模型的结合已经成为主题分类研究的一大热点,本文基于该思想提出了一种适用于网页主题分类的Skip-PTM模型.Skip-PTM模型吸取了LDA主题模型的优势,扩展了Word2Vec的Skip-gram模型,由原来的使用词向量预测上下文词转变为使用上下文向量来预测上下文词.在网页主题类型变迁的研究中,本文根据一定的时间粒度,将网页文本集离散到时间窗口,然后在独立的时间窗口中使用Skip-PTM建模,从而挖掘主题的变迁.本文利用搜狗实验室语料数据和各门户网站搜集的数据集进行分析实验.实验表明,本文提出的方法可以通过潜在语义对网页主题进行分类,并且可以挖掘出主题变迁的趋势.
网页分类、主题变迁、Skip-PTM模型、隐含语义维度
41
TP311(计算技术、计算机技术)
国家重点研发项目;江苏省研究生科研与实践创新计划项目
2020-07-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
1395-1399