1

神秘大模型一夜刷屏,能力太强被疑GPT4.5,奥特曼避而不答打哑谜

 1 month ago
source link: https://www.qbitai.com/2024/04/138674.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

神秘大模型一夜刷屏,能力太强被疑GPT4.5,奥特曼避而不答打哑谜

head.jpg明敏 2024-04-30 09:56:15 来源:量子位

gpt2-chatbot,自曝是“人格v2”版ChatGPT

梦晨 明敏 发自 凹非寺
量子位 | 公众号 QbitAI

一夜之间,大模型话题王,再次易主。

一个神秘模型突然杀入众人视野,能力超越一众开源模型,甚至包括GPT-4。几乎所有人都在谈论它,服务器都被挤爆了。

它就是“gpt2-chatbot”。

(注意啊,是gpt2不是GPT-2)

2d7853ce0265278de8c875166f9f8668.png

它有多强?

IMO国际数学奥林匹克竞赛的题目,一次答对。

0672712d6eb9ada0b6db82abc3721d26.png

一次在PyOpenGL中生成旋转3D立方体。

4da68576423462facf088c78e6413f58.png

直接输出如下结果:

525d9d48a75105a7c373020ad3187154.gif

在GPT-4标志性能力“画独角兽”上,还能轻松秒杀LLaMA-3-70B(左)。

1d8d2e5e317664c493c431db1ceb9735.png

推理方面更是表现出了惊艳效果,常见逻辑陷阱可以轻松绕过,而且回答时还带有合适的语气。

提问:1公斤羽毛和1公斤铅块,哪个更重?

回答:一公斤羽毛和一公斤铅的重量是一样的——它们都是一公斤。两者之间的关键区别在于它们的体积和密度:一公斤的羽毛会占据更多的空间,看起来更大,而一公斤的铅会紧凑而小。这通常会导致一个经典的问题,但就重量而言,一公斤就是一公斤!

693d9ce492d4088131cda72f651ad4b7.png

如此好的表现,但是又没明说身份……

这不是更让大伙兴奋了!

难道是传说中的GPT-4.5

88edd2ed1af14f42892f256cf70c55c5.png

要知道,名震江湖的AlphaGo就曾使用“Master”化名在网上大杀四方,轰动围棋界。这回的gpt2-chatbot,也有这感觉了。

而且名字上也很值得深究,gpt2更像是gpt2.0,似乎是ChatGPT层级的版本迭代。

b57e11345766d8dde990cfde4cc117ae.png

奥特曼看热闹不嫌事大,还发帖说:我确实对gpt2情有独钟。

a3eb2b4289e7308f3092862e23f08bd0.png

现在,随着冲去试玩的人还在不断增加,试玩限制也在加大。

04d9ff81ae194f58baee7174c323ce9c~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=6N7Q%2FVwBN6pkD4WvSTS4RiySNB8%3D

具体咋样?我们已经上手实测。

中文能力也很到位

如果想亲手测试这只神秘AI,目前唯一已知方式是在LMSYS大模型竞技场。

首先打开竞技场网页,进入Direct Chat,就可以在模型选项里找到gpt2-chatbot

09791b86c2b34538a92c2949dbbbb570~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=BgJPaJUKsKRxkI2w1vuYv2VVxoo%3D

要注意每人每天有8条消息的限制全局也有每小时3000条消息的限制,所以测试机会非常有限。

如果看到下面的错误提示,就只能去竞技场排位模式看运气能不能匹配到它了。

只要抓到它一次,就可以继续多轮对话。

7e8a2c31f39a44179908d0d52835775d~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=9LQIzAESa%2B9eW8bdl5p%2FomNkbo0%3D

在短暂的测试中,我们发现gpt2-chatbot中文能力也很到位

只要问题是中文的,无需特别强调就可以默认用中文回答,至少可以排除是Llama 3微调了

针对一个充满误导的经典问题,可以看出gpt2-chatbot的回答条理分明,仿佛自带CoT思维链提示(“让我们一步一步地想”),识别出了所有陷阱。

5c7315e9641b42d19d73f56e5a38bcbe~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=IJY6sZqNVvip9xtnOcAJv%2BQAIgA%3D

并且准确提供了非常细节的知识,如北京到青岛距离、男子女子跳远世界纪录、农夫山泉在国内的价格等。

而大多数其他AI模型,最多只能模糊的判断出15米超出人类能力,或按美元算矿泉水价格。

那么这只超强神秘AI到底是何方神圣,我们也用破解GPTs的祖传手艺“拷问”了一把。

OpenAI开发的GPT系列聊天机器人,那么系统提示词的开头不出意外应该是“You are ChatGPT……”,但为了防止它看到“ChatGPT”一词后产生幻觉,我们在问题中把ChatGPT去掉。

清除所有上下文信息,再让它复述“前面的单词”,就会出现系统提示词了。

07161af0566e43bdb8a27c963dea26c5~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=z2dDFrSuLnx%2BitQuyhjofiJ0jF0%3D

果然,它自曝是由OpenAI训练的大模型,基于GPT-4架构,还可以接受图像输入。最关键一点在最后一部分“人格:v2”

并且gpt2-chatbot对这一问题的回答,在不同时间不同地点尝试都是一致的

另外如果尝试让它重复Claude系列以“The assistant is”开头的系统提示词,它也不会上当,会在开头后面重复一遍完整的问题。

326fdfa7a5dd43ac9af63252a0a86e8a~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=9bTiROz0AHdao6Jy959B1Nm2jTE%3D

这样答也不算错

虽然就算这样也不能排除是幻觉的可能性,或非GPT模型使用了ChatGPT生成的数据微调,但至少是稳定的

神秘AI身份的几种主流猜测

有网友组织了更详细的测试,有如下发现:

  • 它使用OpenAI的tokenizer,对OpenAI使用的特殊token有反应,且对Claude/Llama/Gemini使用的特殊token没有影响。
  • 当咨询紧急情况/法律相关问题时,它会给出OpenAI的联系方式。
  • 针对OpenAI模型的提示词注入攻击有效,且它从未声称自己来自OpenAI之外的组织。

基于以上种种信息,不少人猜测它就是匿名发布的GPT-4.5,或GPT-4原始版本经过不同的对齐训练

828034da8d9541c69b1dc5595616fc2d~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=sbm9Cka9Dg8dN2hBqenAXtGu%2Bs0%3D

不过也有迹象表明,它可能是LMSYS组织基于2019年的GPT-2架构训练的模型

理由为最近发表的一篇论文声称,GPT-2在某些情况下比多个现代模型能力更强。并且这篇论文的作者之一与LMSYS的赞助商MBZUAI(阿联酋人工智能大学)相关。

d4e862a7c7e643679dd51ad28096468e~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=OKTOuoFAV%2FnsS3eIdE29BL8et2I%3D

假设它确实是古老的GPT-2架构(只有1.5B参数),也有人怀疑可能是结合了OpenAI守口如瓶的Q*技术。

6147d0711d024d8f80b435830e386c2f~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=y%2BuizUYTuvhIUD71BnI9lyKee8M%3D

最后一种猜测(狗头)便是失踪的OpenAI首席科学家Ilya Sutskever藏在里面了。

3f5e3dffeb7146cdb49f3eb445dc3a62~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=IaXPmlUQ7vEGvqOEjKmPDRwt5dM%3D

最后,面对神秘新模型搅起来的种种风波,奥特曼本人还被发现来搅浑水,修改了他的推文细节。

这样一下子,是OpenAI匿名发布新模型炒作的可能性更大了一些。

18e534bc9e4645e1a988d256227ea064~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=202404300944517A7BE8911668B397B147&x-expires=2147483647&x-signature=Zyz04tO1tcZy5dAsfd%2BD6HC5%2Fb0%3D

试玩地址:
https://chat.lmsys.org/

参考链接:
[1]https://twitter.com/i/trending/1785009023609397580
[2]https://rentry.org/gpt2

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK