ChatGPT中文性能测评与风险应对

万方数据知识服务平台

点击收藏，不怕下次找不到~

举报应用

@万方数据

期刊专题

DOI：10.11925/infotech.2096-3467.2023.0214

ChatGPT中文性能测评与风险应对

引用

收藏

摘要：

[目的]简要介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议.[方法]使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大.[结果]ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85％以上的准确率,在闭卷问答上出现事实性错误的概率较高.[局限]将判别式的任务转为生成式的过程中可能引入评估分数的误差.本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现.由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性.[结论]ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限.

关键词：语言模型、ChatGPT、人工智能

所属期刊栏目：7

分类号：TP391(计算技术、计算机技术)

资助基金：北京市自然科学基金;基础加强计划技术领域基金项目

在线出版日期：2023-05-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：16-25

英文信息展示

相关文献

评论

暂无封面信息

查看本期封面目录

数据分析与知识发现

ISSN：2096-3467

CN：10-1478/G2

所属期刊栏目：7

年，卷(期)：2023，7(3)

相关作者

相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助课题编号：2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司津ICP备20003920号-1

信息网络传播视听节目许可证许可证号：0108284

网络出版服务许可证：(总)网出证(京)字096号

违法和不良信息举报电话：4000115888 举报邮箱：problem@wanfangdata.com.cn

举报专区：https://www.12377.cn/

客服邮箱：op@wanfangdata.com.cn