基于词熵的中文话题识别方法

引用

摘要：

针对传统话题模型无法识别海量文本数据中的话题内容,提出了一种基于词熵的自动识别新闻话题内容的方法.该方法以词的熵值为依据识别话题词,根据话题词在原始文本中出现的顺序表示各话题词之间的语义关系,并构建话题词网,然后利用模块化度量值识别话题词网中的隐含社区,把每个隐含社区视为一个新闻话题.该方法能够有效地判断每一篇新闻报道的核心话题,并且能够以一种具有可读性的方法表征文本数据中的话题内容,实验结果证明了该方法的有效性.

关键词：词熵、话题识别、话题词网、模块化度量值

所属期刊栏目：40

分类号：H087(应用语言学)

资助基金：国家语委一般项目"基于深度学习的汉语词汇语义历时演变研究——以1946年至2015年《人民日报》为例"YB135-34;辽宁省社会科学规划项目"基于图模型的汉语词义消歧及领域适应研究"阶段成果L16BYY009

在线出版日期：2018-07-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：100-105

期刊专题