ChatGPT大模型技术发展与应用

引用

摘要：

通过回顾深度学习、语言模型、语义表示和预训练技术的发展历程,全面解析了ChatGPT的技术渊源和演进路线.在语言模型方面,从早期的N-gram统计方法逐步演进到神经网络语言模型,通过对机器翻译技术的研究和影响也催生了Transformer的出现,继而又推动了神经网络语言模型的发展.在语义表示和预训练技术发展方面,从早期的TF-IDF、pLSA和LDA等统计方法发展到Word2Vec等基于神经网络的词向量表示,继而发展到ELMo、BERT和GPT-2等预训练语言模型,预训练框架日益成熟,为模型提供了丰富的语义知识.GPT-3的出现揭示了大语言模型的潜力,但依然存在幻觉问题,如生成不可控、知识谬误及逻辑推理能力差等.为了缓解这些问题,ChatGPT通过指令学习、监督微调、基于人类反馈的强化学习等方式在GPT-3.5 上进一步与人类进行对齐学习,效果不断提升.ChatGPT等大模型的出现,标志着该领域技术进入新的发展阶段,为人机交互以及通用人工智能的发展开辟了新的可能.

关键词：自然语言处理、语言模型、预训练技术、ChatGPT

所属期刊栏目：38

分类号：TP183(自动化基础理论)

在线出版日期：2023-10-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共18页

页码：1017-1034

英文信息展示

期刊专题