

OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化
source link: https://www.woshipm.com/ai/5781219.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化
在OpenAI发布的ChatGPT引发了科技圈的热烈讨论之后,现在,GPT-4也终于发布,登上了互联网的大舞台,而且从测试结果可以看出,GPT-4的表现比前一代又有了很大的提高。那么,这一次GPT的进化体现在哪些方面?GPT-4是否还存在着一定局限性呢?

离发布仅仅四个多月,在ChatGPT展现了惊人的实力之后,OpenAI又扔下了一颗核弹:
GPT-4发布了。
在今天的博文中,OpenAI写到:
我们创建了GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。
好像和上一代还是差不多?放心,这是OpenAI谦虚了。
在随后YouTube上进行的Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的,GPT-4轻松拿下。
但这仅仅是表面,GPT再一次进化,虽然可能不是你想的那样。
一、新的模型:迭代优化
怎么样证明一个人比另外一个人更厉害?考试。
那怎么证明一个AI模型比另外一个更厉害?同样是考试。
OpenAI让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:
根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;
它能通过模拟律师考试,分数在应试者的前10% 左右,相比之下,GPT-3.5的得分在倒数 10% 左右;
在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……

“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”OpenAI称。
“我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为第一个我们能够提前准确预测其训练性能的大型模型。”
此外,GPT-4还有了一个质的飞跃——可以开始处理图像。
经常使用ChatGPT的人肯定知道,它只能处理文本,但GPT-4开始接受图像作为输入介质。
在OpenAI提供的一个示例中,GPT-4准确地回答了几个网络meme为什么搞笑的问题(虽然解释得并不好笑)。



图源:《纽约时报》
在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。
在随后举行的Live Demo中,OpenAI也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。
此外,GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是,至少它已经开始理解“幽默”这一人类特质。

图源:《纽约时报》
当然,更多的方面,GPT-4的改进是迭代性的。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令,可以更准确地解决难题。
比如说,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi就向GPT-4描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院,描述中包含几个外行人无法识别的医学术语。
当Gehi医生问GPT-4应该如何治疗病人时,GPT-4给了他完美的答案。“这正是我们对待病人的方式,”Gehi医生说。当他尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。
当然另外一个好消息是,GPT-4对于英语以外的语种支持也得到了大大的优化。
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,OpenAI使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。
在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。
其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。

二、Live Demo:报税、写诗、写代码,无所不能
如果说着这些数据、案例,似乎还难以让人直观感受到GPT-4的真正实力,那么OpenAI的总裁和联合创始人Greg Brockman,就亲自在YouTube上进行了一把直播,来实时演示Live Demo中,展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。
Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。
在演示中,Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。
ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以轻松地总结一篇超长文章的核心内容,比如把OpenAI今天发布的这篇讲述GPT-4的雄文总结要点。
甚至还可以像在演示中的那样,以各种奇怪的形式来提炼它——比如,以全是“G字母开头”的单词来总结。

或者要它把这些内容要点写成一首诗。
在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。

或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。

对于GPT-4展示出的专业能力,GregBrockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。
或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。
从这一点来说,它比ChatGPT带来的影响,将更加广泛。
三、满嘴跑火车:还在跑,但是好一点
不得不提的是,尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠——它仍然会大胆自信地编造事实,并且会出现推理错误。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
在GPT-4公告中,OpenAI强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了 82%,产生真实事实的可能性提高了 40%,优于 GPT-3.5。”
这也意味着, GPT-4 相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。
但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其Bing聊天机器人其实一直由GPT-4提供支持,但许多用户还是能够以各种创造性的方式打破 Bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。
此外,GPT-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。
“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。
四、应用:面向开发者,越来越贵
当然,除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。
这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。
新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包Duolingo、Stripe和Khan Academy等。
当然,如果你不是开发者或者付费用户,但是实在是想尝尝鲜,微软的Bing会是最好的选择——Bing的AI聊天机器人,过去六周以来,已经开始使用GPT-4了。
你感觉到了吗?
作者:VickyXiao;编辑:VickyXiao
来源公众号:硅星人(ID:guixingren123),从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。
本文由人人都是产品经理合作媒体 @品玩 授权发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
Recommend
-
1
使用知识图解开生命科学数据挑战 解道Jdon ...
-
8
VUE家族系列: Vue快速上门(1)-基础知识 ...
-
12
好功能你用过小红书的识图找相似功能吗? 产品: 小红书猎人:
-
4
Matrix 首页推荐Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
-
4
ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源_新浪财经_新浪网...
-
5
V2EX › 问与答 请教大家一下关于识图引擎 BaseUrl 的查找。如动漫出处识图: https...
-
7
抢先GPT-4!微软Bing突然升级「识图」功能,读梗看病写代码,样样精通 作者:新智元 2023-06-13 13:53:00 人工智能 Bing能识图了!开局一张图...
-
7
最后封印解除!Bing 抢先 ChatGPT 支持识图功能,不仅能看懂梗图、写网页,还能「看病」 还记得今年 3 月 OpenAI 在发...
-
5
微软New Bing AI 免费无限使用GPT-4超强识图能力! 我是小马甲~...
-
6
2023-10-16 09:35 北京市发布人工智能算力券实施方案,切实降低企业算力使用成本 据财联社 10 月 16 日报道,北京市经济和信息化局日前印发人工智能算力券实施方案的通知。企业与智能算力供给方签订智能算力服务合同后,向市...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK