10.3969/j.issn.0258-2724.2015.04.027
基于词组主题建模的文本语义压缩算法
为了实现文本代表性语义词汇的抽取,提出一种基于词组主题建模的文本语义压缩算法SCPTM(semantic compression based on phrase topic modeling).该算法首先将代表性语义词汇抽取问题转化为最大化优化模型,并通过贪心搜索策略实现该模型的近似求解.然后,利用词组挖掘模型LDACOL实现词组主题建模,得到SCPTM算法的输入参数;同时,针对该模型中词组的主题分配不稳定的问题进行改进,使得取得的代表性语义词汇更加符合人们对语义的认知习惯.最后,将改进LDACOL模型与LDA模型、LDACOL模型以及TNG模型的主题挖掘性能进行实验比较,并利用SCPTM算法针对不同语料库进行语义压缩,根据聚类结果评价其有效性.实验结果表明,在多数情况下,改进LDACOL模型的主题抽取效果优于其他3种模型;通过SCPTM算法抽取代表性语义词汇能达到70% ~ 100%的精度,相比PCA、MDS、ISOMAP等传统降维算法能获得更高的聚类效果.
主题模型、代表性语义词汇、文本挖掘、语义压缩、SCPTM
50
TP392(计算技术、计算机技术)
浙江省自然科学基金资助项目Q14F020032,LY15F020025;国家自然科学基金资助项目61202282;大学数字图书馆国际合作计划资助项目
2015-10-19(万方平台首次上网日期,不代表论文的发表时间)
共9页
755-763