

“史诗级产品”,GPT-4来了:看图玩梗考律师,能力超90%人类
source link: https://www.36kr.com/p/2172344618611206
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

人类提前退休?
能打败GPT的只有OpenAI自己!
ChatGPT火遍全球才四个月,OpenAI就带来了更强大的GPT-4。
目前来看主要特点是:
- 逻辑推理更强,能代替你考律师证
- 文字输入更多,限制提升至 2.5 万字
- 识图能力,甚至可以给你讲个笑话
- 更聪明,很难PUA它了
- 更安全,忽悠它越狱更难了
除此之外,更重要的是,OpenAI还开放了GPT-4的API,这意味着基于GPT-4会衍生出各种各样的APP和花样功能。
微软营销主管在GPT-4发布后第一时间证实,微软的新必应已经用上了GPT-4。
此外,基于GPT-4的软件也开始涌现出来,有帮助盲人和低视力用户提升视觉能力的。
来源:Open AI
也有基于GPT-4打造的教育、编程软件,他们甚至开始用GPT-4打起广告招募学员了...
来源:Open AI
而GPT-4的商业前景并不止这些,玩梗讲故事、写代码、考试等,各种专业和学术水准,直接和人类相当!
01
能力超90%人类
你能想象10秒生成一个网站,速成一篇论文,标准化考试始终名列前茅的大佬吗?GPT-4就是传说中“别人家的孩子”。
与ChatGPT所用的模型相比,GPT-4不仅能够处理图像内容,且回复的准确性有所提高。
而且一本正经胡说八道的情况,基本不会再出现了。
通俗来讲,GPT-4提高了ChatGPT的核心技术,相比此前版本,具有更广泛的一般知识和解决问题的能力,使得聊天软件能够以更高的准确度解决更难的问题。
OpenAI表示,新模型产生的错误答案更少,将更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4更可靠、更有创意,并且能够处理更细微的指令。“
表现究竟有多好?
考试基本全过
据OpenAI 透露,GPT-4 通过了所有基础考试,而且还是高分通过。
比如,GPT-4在模拟律师资格考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前7%左右,在SAT数学考试中排名前11% 左右。
来源:Open AI
相比之下,原先的最强产品GPT-3.5 ,真实得分在倒数10%左右,GPT-4 的强大可想而知。而且满分为800分的 SAT Math,它从590 分提升到了700 分。
来源:Open AI
看图玩梗
OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
GPT-4使用了第四代大型语言模型,与之前的GPT系列相比,GPT4最重大的突破就是实现了多模态化。
具体来说,就是可以接受文本和图像形式的提问了,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。
不光能识图还能根据文本创造的语境来理解图片,通过穿插的文本和图像组成的输入,它能够生成自然语言、代码等文本输出。此外,还能一秒识梗,还能解释梗在哪里,为什么会有这个梗。
它的读图能力不仅能用于理解幽默,还可以用于进行更学术的应用。处理更复杂的图像信息,包括表格、考试题目截图、论文截图。
比如在提供一张柱状图时,它可以从中抓取关键信息,做出总结并进行进一步的计算分析;而当提供一些论文的截图时,它还能处理图片中的文字和图中图,精炼其中的要点,并归纳出论文图片里的主旨大意。
来源:Open AI
不过Open AI表示,目前图像输入仍处于研究预览阶段,暂不公开。但Open AI公司已经在其官网上为大家展示了些图像输入的例子。
比如当用户问到这张图片有什么好笑的,它是这么回答:
来源:Open AI
GPT:图片显示了一个“闪电电缆”适配器的包,有三个面板。
1:智能手机,VGA接口(一个大的,蓝色的,通常用于电脑显示器)插入充电端口。
2:“闪电电缆”适配器的包装上有一个VGA连接器的图片。
3:VGA连接器的特写,末端有一个小的Lightning连接器(用于给iphone和其他苹果设备充电)。
这幅图的幽默之处在于,把一个大而过时的VGA接口,插入一个小而现代的智能手机充电端口是荒谬的。
再比如,当用户问你能解释一下这个图片的梗吗?
GPT-4:这张图片是把两件不相关的事情结合在一起的笑话:来自太空的地球图片和鸡块。
这个表情包中的幽默来自于文字和图像的意外并置,文本设定了对地球宏伟形象的期望,但这个形象实际上却是炸鸡块。
虽然一本正经解释梗的感觉有点怪,但GPT-4显然是理解了图片之后才能有这番解释出现,就是GPT系列模型进步最大的地方,
除此之外,GPT-4 的长度限制提升到 32K tokens,即能处理超过 25000 个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。
OpenAI 还贴心地发布了 GPT-4 开发者视频,手把手教你如何自己当程序员、检查错误信息、报税。
关于“胡编乱造”和“有害答案”
OpenAI称,该公司花费6个月的时间,利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。
在公司内部的对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高出40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。
Open AI也表示“至少对我们而言,GPT-4训练运行前所未有地稳定,成为首个能够提前准确预测其训练性能的大型模型。”
该模型在多种语言方面均表现出优越性。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5以及其他大语言模型语言性能表现。其中还包括了像拉脱维亚语、威尔士语、斯瓦希里语这些冷门到邪门的语言。
来源:Open AI
其中GPT-4的中文能够达到80.1%的准确性,而GPT-3.5的英文准确性仅为70.1%,目前GPT-4英文准确性提高到了85.5%。
也需要改进
当然Open AI的新孩子也并不全然都是优点,在推特上就有用户连夜写出了自己的一份心得测评说,GPT-4还是和以前一样,不太会幻想未来;仍然回避一些敏感的话题。
此外,GPT4对于这种非文本输入的处理能力还是有限,比如GPT-4在GRE数学部分上只取得了55分,在SAT的数学部分上只有52.6分的成绩。
02
通用人工智能时代来了
在ChatGPT凭借一己之力,在极短的时间内引爆全球AI产业变革的时候,微软、谷歌等科技巨头有了危机感,准备先下手为强,抢夺市场。
来源:Open AI
微软大张旗鼓的表示新版必应已搭载GPT-4,谷歌也发布了Big Bard,其内部正在测试一款名为“Apprentice Bard“的 AI 模型,它基于一种”突破性的对话技术”——LaMDA ,可提供问答搜索能力。甚至连布林本人都亲自来改代码了,只为与ChatGPT竞争。
首富马斯克也想分一杯羹,马老板频频与一位曾在OpenAI短暂工作的两年的员工建立联系,试图成立AI实验室,开发出ChatGPT的替代品。
针对微软和OpenAI的合作,谷歌也完全复制了这个模式,支持了一家由前OpenAI员工组成的初创公司——Anthropic,打造了一款ChatGPT的最强竞品,目前还在优化构建方面。
在中国市场,也有一些大语言模型可以期待,比如百度的文心一言,将会在明天发布。原美团联合创始人王慧文的创业公司“光年之外”也是如火如荼。
随着这些AI大模型的落地,我们距离通用人工智能也越来越近了。
本文来自微信公众号“超电实验室”(ID:SuperEV-Lab),作者:王磊 曹婷婷,编辑:在洲,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK