10.3969/j.issn.1673-629X.2016.09.002
网络舆情信息提取技术研究与实现
网络舆情信息提取是舆情分析系统中最为关键的部分,是实现舆情分析、舆情统计的数据基础。为此,设计和实现了一个基于话题线索的舆情信息提取方案。该方案将舆情页面以话题为线索进行逻辑划分;采用基于DOM树的广度优先搜索方法,设计了舆情信息提取算法;通过设置最低重复话题阈值兹,用户定制提取格式,信息去重去噪措施,实现了舆情信息的有效提取。通过对多个论坛舆情信息的提取实验,结果表明,所设计的方案有很好的提取性能,召回率、正确率、F指数都较高,能够很好地提取出论坛、评论等舆情信息。
舆情信息、Web信息提取、话题线索、DOC树
26
TP391(计算技术、计算机技术)
四川省自然科学重点项目A22012003;四川省乐山市科技局重点项目14GZD050
2016-10-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
8-11