10.3969/j.issn.1006-2475.2012.05.009
基于LSA-HMM的新闻主题分割
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础.传统的基于隐马尔可夫模型( Hidden Markov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系.本文提出一种基于隐马尔科夫模型的改进算法.该算法使用潜在语义分析( Latent Semantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割.数据实验表明,该算法具有较好的分割性能.
主题分割、隐马尔可夫模型、主题模型、潜在语义分析
TP391(计算技术、计算机技术)
2012-10-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
27-30,34