10.3969/j.issn.1673-4785.201204017
基于关联词的主题模型语义标注
互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然后以关联词在数据集中的概率分布来设计相关性判别函数,计算候选标签和主题模型的相关度,最后根据最大边缘相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数量的标签表达更为丰富的语义,这有助于进一步实现更为准确的主题跟踪和主题信息检索.
主题分析、语义标注、生成模型、关联词、关联规则
7
TP391(计算技术、计算机技术)
国家"973"计划资助项目2012CB821206;国家自然科学基金资助项目91024001,61070142;北京市自然科学基金资助项目4111002
2013-03-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
327-332