10.3969/j.issn.1000-3428.2012.22.040
基于语义扩展模型的中文网页关键词抽取
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法.选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词.根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串.实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量.
中文网页关键词抽取、语义扩展模型、邻接变化数、聚类算法、n-gram语言模型
38
TP391(计算技术、计算机技术)
国家"863"计划基金资助项目"结合语义的视频服务网站自动发现与分析评估"2008AA01Z408
2013-01-05(万方平台首次上网日期,不代表论文的发表时间)
共4页
163-166