4

GPT-4“自我反思”后能力大增,测试表现提升 30%

 1 year ago
source link: https://www.51cto.com/article/751122.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

GPT-4“自我反思”后能力大增,测试表现提升 30%

作者:远洋 2023-04-04 11:20:40
GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。
a66dc43195c6b4332ba607158d6edd6750c91b.png

 4 月 4 日消息,OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中,都取得了显著的进步,测试表现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。

研究人员诺亚・辛恩(Noah Shinn)和阿什温・戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术,让 AI 代理能够模拟人类的自我反思,并评估自己的表现。GPT-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。”

b12d1e93029ff620fb3700278221eee4876322.png

在 HumanEval 编码测试中,GPT-4 使用自我反思环路,准确率从 67% 上升到 88%

22d2b5a03234679cb77115e31a8a1e40b7f94d.jpg

GPT-4 可以通过设计和执行测试来批判其自身的性能,如 AlfWorld 测试结果所示,可以大大改善其性能

研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中,GPT-4 需要解决 164 个从未见过的 Python 编程问题,原本准确率为 67%,使用反思技术后,准确率提升到了 88%。在 Alfworld 测试中,AI 需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,GPT-4 的准确率从 73% 提高到了 97%,只有 4 个任务失败。在 HotPotQA 测试中,GPT-4 可以访问维基百科,并回答 100 个需要从多个支持文档中解析内容和推理的问题,原本准确率为 34%,使用反思技术后,准确率提高到了 54%。

这项研究表明,AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现,这有点像生成对抗网络,这是一种让两个 AI 互相提高技能的方法,比如一个 AI 试图生成一些看起来像真实图片的图片,另一个 AI 试图分辨哪些是假的,哪些是真的。但在这种情况下,GPT 既是写作者又是编辑,通过自我反思来改进自己的输出质量。

责任编辑:姜华 来源: IT之家

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK