10.14188/j.1671-8836.2015.04.007
面向维基百科服务计算领域的演化知识树
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库“服务计算”领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.
文档主题-热点、Gibbs抽样、演化知识树、维基百科热点
61
TP311(计算技术、计算机技术)
国家重点基础研究发展计划9732014CB340404资助项目
2015-10-08(万方平台首次上网日期,不代表论文的发表时间)
331-338