10.3969/j.issn.1003-0077.2013.05.016
基于种子词汇的话题标签抽取研究
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足.该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法.首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签.该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息.
话题标签、种子词抽取、bootstrapping算法
27
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60873134
2013-11-18(万方平台首次上网日期,不代表论文的发表时间)
共9页
114-121,143