政府网站开放公文主题分类自动标注方法
当前,政府从各层面采取了一系列措施推进政务信息公开,已经取得了阶段性成果.实践工作中,政府网站平台发布的开放公文缺少主题分类、标注不一致问题成为阻碍政务信息开放利用的技术瓶颈.如何精准地、一致地对现有政府平台的海量政务公文进行主题分类标注,使其能为深度检索、推荐服务提供支撑,是亟待解决的关键问题.在深入调研的基础上,一套自动化的针对政府开放公文的主题分类方法被提出,该方法以CNN-LSTM模型为基础,融合预训练BERT模型的语义特征,能精准的对政府开放公文进行主题分类.模型针对主题分类预测的整体准确度(Accuracy)为63.52%,最佳的F1-value可达到63.59%,为解决政务公文主题分类标注缺失问题提供了可行方案.该方法可以与信息检索、推荐结合,为公众提供更具精准度的政府公文服务.
政策文本、主题分类、预训练BERT模型、标注方法
G272.5(档案学、档案事业)
国家社会科学基金21ATQ008
2022-10-11(万方平台首次上网日期,不代表论文的发表时间)
共9页
19-27