10.3969/j.issn.1000-3428.2016.09.033
融合要素及主题的汉越双语新闻话题分析
双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少.为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征.将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题.实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高.
双语新闻话题分析、汉越双语、文本相似度、主题、自适应聚类
42
TP311(计算技术、计算机技术)
国家自然科学基金资助项目61462055,61472168,61262041;云南省自然科学基金资助重点项目2013FA130
2016-11-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
186-191