10.3969/j.issn.1672-9722.2019.01.036
基于word2vec的网站主题分类研究∗
为了对网站主题高效的进行分类,建立一种基于word2vec的分类模型.针对预先定义的财经、娱乐、军事、科技、健康、体育、教育、社会共八个主题,首先通过word2vec训练得到包含语义的词向量.根据八个主题分别列举对应的特征词,将每个主题的特征词对应的词向量取平均作为该主题的中心词向量.对于待测网站文本,通过DBSCAN聚类提升文本的数据质量,计算文本与各主题的余弦相似度,取最大的作为该文本的所属主题.实验采用8000个文档进行测试,实验结果表明,利用该方法可以高效地对网页文本主题进行分类,有助于更好地了解人们的阅读偏好.
网站分类、word2vec、词向量、DBSCAN、余弦相似度
47
TP181(自动化基础理论)
2020-01-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
169-173