10.3772/j.issn.1000-0135.2022.10.001
基于语义关联与模糊聚类的共词分析方法
共词分析是文本内容分析的重要基础方法,但已有共词分析方法存在两方面不足,一是在关键词共词矩阵构建中未考虑词对的语义关联,二是在共词矩阵聚类分析中不支持词汇主题归属的多元性.本文提出基于语义关联与模糊聚类的共词分析方法,结合高频低频词界分公式和词频g指数抽取领域关键词,利用词嵌入模型学习关键词的语义向量表示,进而构建语义加权共词矩阵,以综合共现特征与语义关联来度量词对间相关性;结合模糊C均值聚类算法与因子降维对语义加权共词矩阵进行关键词模糊聚类,以弥补硬聚类中词汇主题归属单一化的不足,提高类团的信息质量并揭示类团之间的联系.选择"感染性疾病学和传染病学类"期刊文献开展实验,结果验证了本文方法的有效性和优越性.
共词分析、语义关联、词嵌入模型、模糊C均值聚类
41
TP391;G350;TP181
国家社会科学基金20ATQ008
2022-11-29(万方平台首次上网日期,不代表论文的发表时间)
共12页
1003-1014