10.11925/infotech.2096-3467.2020.0718
基于多策略的群聊话题检测技术
[目的]更好地解决群聊话题纠缠的问题,减少稀疏文本特征对聚类的影响,实现对多类型消息混合的连续群聊信息的话题检测.[方法]提出一种基于多策略的群聊话题检测技术,通过构建话题序列解决话题交叉,利用消息的用户、时间、类型等属性提升聚类效果.[结果]本方法处理三份群聊记录样本的纯文本数据时的F值较对比算法分别提升2.9%、6.1%和3.0%,速度分别提高约27.6%、32.1%和47.1%.本方法还能处理传统算法无法应对的混合类型数据,且比处理对应的纯文本数据时的性能分别提升约29.4%、27.1%和22.5%.[局限]对群聊消息文本特征的利用率不足,算法所设阈值过多.[结论]本文方法能够在一定程度上提高群聊话题检测效果,并扩大了话题检测所能应对的消息类型的广度,提升了舆情分析效率.
群聊消息、话题检测、短文本
5
TP391(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;北京市自然科学基金
2021-07-26(万方平台首次上网日期,不代表论文的发表时间)
共9页
1-9