1

小扎自曝愿开源100亿美元模型,2025年AGI没戏,能源短缺成最大瓶颈

 3 weeks ago
source link: https://www.36kr.com/p/2744153877326339
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

小扎自曝愿开源100亿美元模型,2025年AGI没戏,能源短缺成最大瓶颈

新智元·2024-04-22 07:48
开源价值100亿美元的AI模型,我愿意
interlace,1

【导读】在最新的播客访谈中,小扎又做了一把「开源英雄」,大方表示:花费100亿美元研发的模型,如果对人类安全且有益的话,他会选择开源。此外,他还表示是个悲观主义者,因为能源瓶颈,我们离AGI还有几十年的距离。

如果你手头有一个价值100亿美元的AI模型,通过了安全测试且让所有人受益,你愿意将它开源吗?

这个问题会让许多人陷入良久的思考,但小扎没有犹豫,他的回答是——我愿意!

这个惊人的言论,出自最近小扎在Dwarkesh Patel播客中的谈话。

interlace,1

此外,这期干货满满的谈话中,他还曝出了不少内幕消息,比如Meta为何会未卜先知,在2022年就大量买进H100;为何自己会笃信元宇宙等等。

而且,跟Sam Altman、马斯克等高歌猛进的乐观主义者不同,小扎对于AGI的短期实现是持悲观态度的。

在他看来,人类根本不可能在2025年之前实现AGI,因为最大的瓶颈就是能源限制。要解决能源问题,我们还需要几十年时间。

开源价值100亿美元的AI模型,我愿意

当主持人Patel问道:如果Meta砸了100亿美元开发出一个模型,它完全安全,甚至评估值还可以对模型微调,你会开源吗?

小扎坚定不移地表示:会。

主持人鲁豫脸表示不信:「花了100亿美元研发费用的模型,真的说开源就开源?」

interlace,1

小扎表示,Meta会对此进行评估的,毕竟公司一向以开源英雄著称,在开源方面有悠久的历史,拥有PyTorch、React和开放计算等项目。

在开放计算项目中,Meta将所有服务器、网络交换机和数据中心的设计都开源了。这样,整个行业都以他们的设计为标准,直接让供应链围绕这种设计建立起来。

这就大大降低了价格,直接为相关人员节省了数十亿美元。

而且,开源就能集思广益,如果有人能找到更便宜的运行方法,提升10%的效率,那就能直接节省数十亿甚至数百亿美元,这本身就是很值钱的,因此开源好处多多。

不过,他也承认:如果模型成为产品时,情况就变得复杂了。此时,就需要仔细权衡开源在经济上的利弊,不过,目前Meta并不处于这种情况。

这是显而易见的,因为Meta绝对不会把Instagram的代码开源。

苹果和谷歌是糟糕的守门人

同时,小扎也痛批了竞争对手一把。

他表示,移动生态最糟糕的一点就是,我们可以开发什么,是由苹果和谷歌这两个守门人把门的。

因为每当Meta构建出一些产品,这俩就会分走一大笔钱。

更让小扎不满的是,很多次Meta想要推出新产品或新功能,苹果都会说不行。

小扎直呼:如果世界里只有这几家运行封闭模型的公司,它们将直接控制API!

就是为了打破这种局面,Meta深信自己去构建一个模型是值得的。

对此,Ate-a-Pi开玩笑道:因为扎克伯格是个好人!

interlace,1

当然,他确实是个好人。但更重要的是这背后商业上的考量:

1. 允许在Meta之外进行社交产品的调试:

- 社交产品总会有bug!

- Meta以及所有社交平台的产品,都需要对互动的内容进行控制(例如对孩子说有害的话)

- 将技术推向市场,可以让Meta在小规模环境中观察到这些bug

2. Meta面临的最大威胁是character.ai:

- AI朋友将更多、更友好、更易于获取,超越你的现实朋友(目前被FB、Ins和WhatsApp等「控制」)

- 但Meta目前还不能直接下场,因为这会让人感到不安,尤其是在技术还未完善时,会产生一种怪异的不自然感

- Meta曾尝试过Tom Brady和Snoop Dogg风格的AI朋友,但为了安全,有趣的互动受到了很高的限制

- 如果AI朋友的表现足够好,小扎或许不得不「解散」他建立的社交网络

3. 摧毁竞争对手:

- 技术或产品的早期领先可以帮助一家初创公司克服分销上的不利

- Meta拥有终极的分销优势 ,而小扎不希望其他人分一杯羹

- 通过开源,他可以有效限制character.ai、OpenAI等公司收入的增长

- 这些公司必须在资本的限制下加速创新,而他并不会受到资本的限制

- 最终,防止大型竞争对手的出现

4. 分布式研发:

- 他希望其他人能够开发出有趣的社交创意,并进行复制(此前就曾将Snap的创新融入Instagram)

- 现在更甚,因为你必须给微调的Llama 3打上标注

不得不说,小扎的这波操作可谓是体现了他对社交无人能及的理解,仿佛就像来自另一个星球一样。

interlace,1

除此之外,在2023年第四季度财报中,小扎也曾详细说明过了以上内容。

interlace,1

简而言之,开源可以改进我们的模型。

首先,将模型转化为产品还需要大量工作,而且无论如何市场上都会有其他开源模型。

因此,我们认为成为开源的领导者不仅不会显著削弱我们产品的差异化,而且还会带来优势。

interlace,1

我之前以为,面向社交、商业或媒体领域的这些工具,只需解决AI挑战的一个子集就能交付。但现在看来,为了提供我们设想的最佳服务,模型必须具备推理、规划、编码、记忆等多种认知能力。

FAIR从事通用智能研究已有十多年,现在通用智能也将成为我们产品工作的重点。

寒冬已来,25年前不可能实现AGI

关于AGI的短期实现,小扎是持悲观态度的。

在他看来,2025年之前是不可能实现AGI的,最大的瓶颈,就是能源限制。

能源将限制AI的发展,而如果要解决这些问题,可能需要几十年时间。

虽然坐拥至少数万块英伟达GPU,但小扎却觉得,单纯把计算集群造大,早晚会遇到边际效应的那一点,感觉有点在内涵Sam Altman。

interlace,1

在采访中,他表示如今世界上最棘手的事情就是:虽然Llama-3的8B比Llama-2 的70B更好,但指数曲线还能持续多久?

尽管如此,他也认为投资100亿美元,甚至1000亿美元,来建设基础设施是值得的,或许会让我们得到一些惊人的东西。

是的,如今GPU的供应限制,已经让很多公司投入大量资金来构建基础设施。

在到达某一点的时候,投入更多资本的性价比就变低了。

而且在到达这一点之前,我们就会遇到能源的限制。因为目前还没人建立过一千兆瓦的单一训练集群。

interlace,1

在过去十年中,每单位能量的原始计算量每两年翻一番,老黄也意识到了这一点

主持人提问道:如果你有1万亿美元呢?

小扎表示,这还是取决于指数曲线会走多远。

现在的数据中心,规模大概是50兆瓦或100兆瓦,特别大型的能达到150兆瓦。

但300兆瓦、500兆瓦甚至1吉瓦的数据中心,需要花费数年时间才建成,如果是1吉瓦,就需要一个核电厂的能源。

interlace,1

此外,也存在架构瓶颈。

小扎认为,如果持续给Llama-3 70B提供更多数据,或者通过token进行优化,它会持续改进。

不过,我们在此基础上构建的东西,不可能无限进步。

也就是说,小扎基本陷入了渐进主义的陷阱,他不相信GPT-4的性能可以提升100倍,或AGI在短期内能实现。

如果GPT-5的性能是GPT-4的10到100倍,那当前的MMLU之类的基准测试,根本就不起作用。

那该如何衡量,模型创造的价值是否超过了部署成本呢?

总之,放出这种言论的小扎,现在并没有在筹集资金。而Sam Altman、马斯克、Dario Amodei等疯狂筹资的大佬,都预计AI模型能力将大幅提高。

interlace,1

这其中有多少是真实水分,有多少是炒作需要,我们就不得而知了。

只能说,相比之下小扎目前看起来更像个老实人。

22年买入大量GPU,是未卜先知?

在2022年公司股价遭遇重创之际,小扎还是铤而走险,购买了大批H100。

当年第三季度财报显示,Meta资本支出高达320亿-330亿美元。

其中一部分大多流向数据中心、服务器和网络基础设施构建,以及在元宇宙上的巨额投入。

interlace,1

而现在看来,他好像拥有一种未卜先知的能力。

在采访中,小扎解释道,「当时Meta正大力发展短视频工具Reels,因此需要更多的GPU来训模型」。

「这也是我们提供服务的一次重大转变,我们不再针对你所关注的人或页面的内容进行排名,而是开始大力推荐『非关联内容』的内容」。

interlace,1

也就是说,向用户展示候选内容的语料库,有时会从几千个扩大到数亿个。

若想在这一数量级数据中完成训练推理,就需要一个完全不同的基础设施。

「因此,我们要订购足够多的GPU,以满足我们在Reels、内容排序和信息流等方面的需求。还要额外多购买一倍」。

另外,小扎曾在年初宣布,计划到年底要部署35万块英伟达H100。

interlace,1

他透露了更多的细节,这将是一个非常大的舰队。Meta内部将为训练LLM打造两个单集群,一个配备22,000块H100,另一个集群配备24,000块。

因为模型推理对Meta来说,是至关重要的一件大事,需要为Facebook、Ins等自家应用的用户提供服务。

用小扎的原话来说,就是:

我们所需的推理计算与训练的比率,可能远高于其他从事这一领域的公司,这是因为我们所服务的社区用户量非常庞大。

interlace,1

GPT-4级开源模型,今年晚些发布

小扎还提到,对于Llama 3,主要专注于使用大量代码进行训练。在代码中训练模型,有助于其在不同的领域中进行推理。

与此同时,Llama 3是专为工具使用而设计。

「我们的开发者不需要手写所有代码,就可以让模型使用谷歌并进行搜索」。

他还提到了,下一代模型Llama 4将针对智能体行为而打造。

其实,整个AI圈更加期待的是,媲美GPT-4级别的开源模型Llama 3-405B能够发布。

小扎称,4050亿参数的Llama 3将具备更强的多模态能力,支持多种语言,以及更大的上下文窗口,并计划在今年晚些时候推出。

interlace,1

就目前训练结果而言,405B已经在大规模多任务语言理解的基准测试(MMLU)中,取得了大约85分的成绩。

其实Llama3发布三天后,已经有1000个微调模型在Hugging Face上发布。

1000个微调Llama 3模型,中文占8个

HF的创始人Clement Delangue非常期待,下周结束前,或许会有1万个开源Llama3变体上线。

interlace,1

其中,网友@meng__shao总结了,截止目前中文的微调模型已达到6个。

interlace,1

目前,最小版本的额Llama-3 8B已经在改变世界,不仅能在消费级设备上运行,还开辟了大量领域的应用。

interlace,1

那么,未来的Llama模型,或许是能够解决用户所有用例的Llama 10发布那天,是否足以取代现实中的程序员?

小扎表示,「我不确定我们是否正在取代人类程序猿,因为Meta正在给人们提供工具来做更多的事情」。

而且衡量人类智力不仅只有单一的阈值,因为每个人都有不同的技能。我认为,在某种程度上,人工智能可能会在大多数方面超过人类,这取决于模型的强大程度。但这个过程,是循序渐进的。

interlace,1

对元宇宙的信仰从何而来

虽然烧了300亿美元不止,但小扎对元宇宙似乎依然没有放弃。

主持人提出了一个尖锐的问题:就是市场对你大加指责,你也要坚定去做元宇宙。这种笃定,究竟来源于什么?是什么样的价值观或直觉,让你如此笃信元宇宙?

小扎表示,自己只是单纯喜欢建造东西。

他喜欢围绕人们的交流、表达和工作来构建产品,这跟他大学时的专业有关。他学的是计算机科学和心理学,而建造元宇宙,就是两门专业的交叉点。

这是一种深刻的内驱力,让他觉得自己如果不做点新东西,就像犯了错一样。

而且,无论身处何处,元宇宙都能让你感受到与人的联结,在小扎看来,这是一个杀手锏。

interlace,1

技术的一个教训是,要尽可能将物理约束领域的东西转移到软件中,因为软件更容易构建和迭代。

不是每个人都有数据中心,但很多人都可以写代码,并且使用和修改源代码。

而元宇宙版本的软件,就是实现现实的数字存在。在社交、沟通、医疗行业等,元宇宙都会作用巨大。

而且,在为AI投资1000亿美元,或者为元宇宙投入巨额资金时,商业计划就能表明:如果产品奏效,这是很好的投资。

即使在生活中,小扎也是这样的。在考爱岛,他建了一个牧场,负责设计所有建筑。

「如果要养出世界上最好的牛,该怎么设计呢?这就是我。」

参考资料: 

https://twitter.com/8teAPi/status/1781480713394737238 

https://the-decoder.com/why-meta-ceo-mark-zuckerberg-is-willing-to-give-away-a-10-billion-ai-model/ 

本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK