“史诗级产品”，GPT-4来了：看图玩梗考律师，能力超90%人类

超电实验室·2023-03-15 07:36

截胡文心一言

人类提前退休？

能打败GPT的只有OpenAI自己！

ChatGPT火遍全球才四个月，OpenAI就带来了更强大的GPT-4。

目前来看主要特点是：

逻辑推理更强，能代替你考律师证
文字输入更多，限制提升至 2.5 万字
识图能力，甚至可以给你讲个笑话
更聪明，很难PUA它了
更安全，忽悠它越狱更难了

除此之外，更重要的是，OpenAI还开放了GPT-4的API，这意味着基于GPT-4会衍生出各种各样的APP和花样功能。

微软营销主管在GPT-4发布后第一时间证实，微软的新必应已经用上了GPT-4。

此外，基于GPT-4的软件也开始涌现出来，有帮助盲人和低视力用户提升视觉能力的。

v2_72934efb733d45eeb235088fe3cbbe2c_oswg639023oswg1080oswg1309_img_000

来源:Open AI

也有基于GPT-4打造的教育、编程软件，他们甚至开始用GPT-4打起广告招募学员了...

v2_d57e75c85d744348a5ade022f38a94fd_oswg788789oswg1080oswg971_img_000

来源:Open AI

而GPT-4的商业前景并不止这些，玩梗讲故事、写代码、考试等，各种专业和学术水准，直接和人类相当！

01 能力超90%人类

你能想象10秒生成一个网站，速成一篇论文，标准化考试始终名列前茅的大佬吗？GPT-4就是传说中“别人家的孩子”。

与ChatGPT所用的模型相比，GPT-4不仅能够处理图像内容，且回复的准确性有所提高。

而且一本正经胡说八道的情况，基本不会再出现了。

通俗来讲，GPT-4提高了ChatGPT的核心技术，相比此前版本，具有更广泛的一般知识和解决问题的能力，使得聊天软件能够以更高的准确度解决更难的问题。

OpenAI表示，新模型产生的错误答案更少，将更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4更可靠、更有创意，并且能够处理更细微的指令。“

表现究竟有多好？

考试基本全过

据OpenAI 透露，GPT-4 通过了所有基础考试，而且还是高分通过。

比如，GPT-4在模拟律师资格考试的成绩在考生中排名前 10% 左右，在 SAT 阅读考试中排名前7%左右，在SAT数学考试中排名前11% 左右。

v2_8b8c480e8d954131a88964881de715a5_oswg32551oswg1080oswg404_img_000

来源:Open AI

相比之下，原先的最强产品GPT-3.5 ，真实得分在倒数10%左右，GPT-4 的强大可想而知。而且满分为800分的 SAT Math，它从590 分提升到了700 分。

v2_27df25b5af0c43b0ae284d4ae932ae76_oswg36115oswg555oswg393_img_000

来源:Open AI

看图玩梗

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

GPT-4使用了第四代大型语言模型，与之前的GPT系列相比，GPT4最重大的突破就是实现了多模态化。

具体来说，就是可以接受文本和图像形式的提问了，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

不光能识图还能根据文本创造的语境来理解图片，通过穿插的文本和图像组成的输入，它能够生成自然语言、代码等文本输出。此外，还能一秒识梗，还能解释梗在哪里，为什么会有这个梗。

它的读图能力不仅能用于理解幽默，还可以用于进行更学术的应用。处理更复杂的图像信息，包括表格、考试题目截图、论文截图。

比如在提供一张柱状图时，它可以从中抓取关键信息，做出总结并进行进一步的计算分析；而当提供一些论文的截图时，它还能处理图片中的文字和图中图，精炼其中的要点，并归纳出论文图片里的主旨大意。

v2_cea8a4e951764580b12ed6bb2815aee2_oswg317590oswg1080oswg573_img_000

来源:Open AI

不过Open AI表示，目前图像输入仍处于研究预览阶段，暂不公开。但Open AI公司已经在其官网上为大家展示了些图像输入的例子。

比如当用户问到这张图片有什么好笑的，它是这么回答：

v2_a40c31fb85094ec89c41a93114874449_oswg1348634oswg1079oswg1081_img_000

来源:Open AI

GPT：图片显示了一个“闪电电缆”适配器的包，有三个面板。

1:智能手机，VGA接口(一个大的，蓝色的，通常用于电脑显示器)插入充电端口。

2:“闪电电缆”适配器的包装上有一个VGA连接器的图片。

3:VGA连接器的特写，末端有一个小的Lightning连接器(用于给iphone和其他苹果设备充电)。

这幅图的幽默之处在于，把一个大而过时的VGA接口，插入一个小而现代的智能手机充电端口是荒谬的。

再比如，当用户问你能解释一下这个图片的梗吗?

v2_498d95214bc4408b8686d8e9b164461e_oswg248498oswg355oswg420_img_000

GPT-4：这张图片是把两件不相关的事情结合在一起的笑话:来自太空的地球图片和鸡块。

这个表情包中的幽默来自于文字和图像的意外并置，文本设定了对地球宏伟形象的期望，但这个形象实际上却是炸鸡块。

虽然一本正经解释梗的感觉有点怪，但GPT-4显然是理解了图片之后才能有这番解释出现，就是GPT系列模型进步最大的地方，

除此之外，GPT-4 的长度限制提升到 32K tokens，即能处理超过 25000 个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

OpenAI 还贴心地发布了 GPT-4 开发者视频，手把手教你如何自己当程序员、检查错误信息、报税。

关于“胡编乱造”和“有害答案”

OpenAI称，该公司花费6个月的时间，利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4，从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。

在公司内部的对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高出40%，相应的“不允许内容请求的倾向”降低了 82%，根据政策响应敏感请求（如医疗建议和自我伤害）的频率提高了29%。

Open AI也表示“至少对我们而言，GPT-4训练运行前所未有地稳定，成为首个能够提前准确预测其训练性能的大型模型。”

该模型在多种语言方面均表现出优越性。OpenAI称，在测试的26种语言中，GPT-4在24种语言方面的表现均优于GPT-3.5以及其他大语言模型语言性能表现。其中还包括了像拉脱维亚语、威尔士语、斯瓦希里语这些冷门到邪门的语言。

v2_ff7ea3520c7044ef85387f43a11f7c17_oswg40663oswg936oswg519_img_000

来源:Open AI

其中GPT-4的中文能够达到80.1%的准确性，而GPT-3.5的英文准确性仅为70.1%，目前GPT-4英文准确性提高到了85.5%。

也需要改进

当然Open AI的新孩子也并不全然都是优点，在推特上就有用户连夜写出了自己的一份心得测评说，GPT-4还是和以前一样，不太会幻想未来；仍然回避一些敏感的话题。

此外，GPT4对于这种非文本输入的处理能力还是有限，比如GPT-4在GRE数学部分上只取得了55分，在SAT的数学部分上只有52.6分的成绩。

02 通用人工智能时代来了

在ChatGPT凭借一己之力，在极短的时间内引爆全球AI产业变革的时候，微软、谷歌等科技巨头有了危机感，准备先下手为强，抢夺市场。

v2_15d0dc9cd5f94a73be18a2948e334608_oswg21821oswg1080oswg673_img_000

来源:Open AI

微软大张旗鼓的表示新版必应已搭载GPT-4，谷歌也发布了Big Bard，其内部正在测试一款名为“Apprentice Bard“的 AI 模型，它基于一种”突破性的对话技术”——LaMDA ，可提供问答搜索能力。甚至连布林本人都亲自来改代码了，只为与ChatGPT竞争。

首富马斯克也想分一杯羹，马老板频频与一位曾在OpenAI短暂工作的两年的员工建立联系，试图成立AI实验室，开发出ChatGPT的替代品。

针对微软和OpenAI的合作，谷歌也完全复制了这个模式，支持了一家由前OpenAI员工组成的初创公司——Anthropic，打造了一款ChatGPT的最强竞品，目前还在优化构建方面。

在中国市场，也有一些大语言模型可以期待，比如百度的文心一言，将会在明天发布。原美团联合创始人王慧文的创业公司“光年之外”也是如火如荼。

随着这些AI大模型的落地，我们距离通用人工智能也越来越近了。

本文来自微信公众号“超电实验室”（ID：SuperEV-Lab），作者：王磊曹婷婷，编辑：在洲，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

“史诗级产品”，GPT-4来了：看图玩梗考律师，能力超90%人类

“史诗级产品”，GPT-4来了：看图玩梗考律师，能力超90%人类

01

能力超90%人类

考试基本全过

看图玩梗

关于“胡编乱造”和“有害答案”

也需要改进

02

通用人工智能时代来了

Recommend

Easymailing - User-friendly email marketing solution | Product Hunt

无处不在的二维码，在数字化转型中扮演了什么角色？

写文案，先学好关键一招

Samsung denies that its S23 Ultra Space Zoom moon photos are fake

关于抖音、小红书、京东平台的内容种草，你都会玩吗？（内附种草攻略）

NEAR Launches Web3 Blockchain Operating System to Onboard 1 Billion Users to the...

SentinelOne shares rise after-hours on solid earnings beat

Builders Spotlight: DAK, age 12, introduces Sappy the mascot to get more kids bu...

电脑技术：下载YouTube油管视频和字幕的2种方法

漫步者推出QD35蓝牙音箱支持TurboGaN充电

About Joyk