10.3969/j.issn.1000-3428.2017.12.034
基于词嵌入与概率主题模型的社会媒体话题识别
词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题.为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型.在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度.实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好.
社会媒体、话题检测、特征表示、词嵌入、话题模型、词-主题混合模型
43
TP18(自动化基础理论)
国家自然科学基金61472258;深圳市基础研究计划项目JCYJ20140509172609162
2018-04-09(万方平台首次上网日期,不代表论文的发表时间)
共8页
184-191