10.3969/j.issn.1000-3428.2009.07.064
基于贝叶斯信息准则的文本主题数估计
特定领域的主题识别和关键词提取有着广泛的应用,但通过人工指定识别或文本聚类自动生成的主题类别缺乏客观的度量方法.该文结合基于BIC准则的模型选择理论和独立分量分析技术对主题的数量进行概率估计,给出主题数量在BIC意义下的统计分布.在此基础上实现了文档矩阵的ICA分解,并根据分离的独立分量获得主题的关键词及其权重.实验表明,该方法在没有领域知识支持的情况下能估计出反映文本集合的主题数并提取相应的关键词.
主题识别、关键词提取、独立分量分析、贝叶斯信息准则
35
TP3;I20
2009-05-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
183-185