10.3969/j.issn.1003-0077.2019.05.001
文本摘要常用数据集和方法研究综述
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段.现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集.已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述.该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述.对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等.对于每一种公用数据集,给出了文本摘要问题的形式化定义.同时,对经典和最新方法在特定数据集上的实验效果进行了分析.最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题.
文本摘要、自然语言处理、机器学习、人工智能
33
TP391(计算技术、计算机技术)
国家重点研发计划项目2016YFB1000902;国家自然科学基金61232015 ,21472412 ,61621003
2019-06-13(万方平台首次上网日期,不代表论文的发表时间)
共16页
1-16