1

对话周鸿祎:做大语言模型比做光刻机简单多了

 11 months ago
source link: https://www.ccvalue.cn/article/1411689.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
追求某个行业、某个领域数据的精准、数据的反馈,落实到应用上面还是小模型更靠谱。

来源:未来科技力

本文是5月31日品玩举办的“模型思辨——国内大模型生态研讨会”上,品玩创始人、CEO骆轶航与360集团创始人、CEO周鸿祎的对话实录,经整理编辑发布。

访谈人:骆轶航

受访人:周鸿祎

大模型确实要比光刻机简单很多

骆轶航:我现在是品玩的首席大语言模型布道师,今天跟我对话的既是中国大语言模型领域的一个主要builder,他也是一位大语言模型领域的evanglist(布道者)。过去几个月我们看到他在各种场合分享了对大语言模型趋势的看法,当然他自己的团队也在做大语言基础模型。他就是360集团的董事长和CEO周鸿祎先生。

周鸿祎:我前不久生病了才病愈,我是第一次阳,后遗症比较严重,如果一会儿产生大模型幻觉,说错什么话,大家不要在意。

骆轶航:那取决于我怎么给prompt,出现模型幻觉的原因往往是prompt给得不好。

周鸿祎:我在下面听你开场讲了这么久,感觉已经快溢出了。

骆轶航:那是你的Token不够用了。那好,我争取用短小精准的prompt问你问题。过去三个月所有人都在讨论大模型,您觉得春节以后,中国和美国在大语言模型领域的差距是更大了还是更小了?

周鸿祎:我觉得当然是更小了,因为在ChatGPT刚出来的时候,我这个做搜索的人,用搜索的思路去看人工智能,简直觉得匪夷所思不可思议,原来研发大模型的路径答案可以是这样的,你也完全不知道它的工作原理是什么。

但最近几个月国内同行陆陆续续发布了自己的大模型,虽然客观来讲跟GPT4.0还有点差距,相比GPT3.5也有点差距,但差距没有那么大。

顺道吐个槽,国内测试大模型特别喜欢用脑筋急转弯的形式,但如果你看微软对GPT4.0的测试,其实在推理能力以及非常长的思维链的能力上,GPT4.0是遥遥领先的。

话说回来,千里之行,始于足下,原来不知道什么是预训练,不知道什么是微调,不知道什么是用户强化学习,踩了很多坑。,又从百亿参数到几百亿、上千亿的参数,现在总算做出一个能用的东西,虽然有差距,但也是非常大的进步。

国内研发大模型满打满算,起步晚的过了春节开始做,到现在也就三五个月时间,再次证明大模型确实还是要比光刻机简单很多。

不过昨天看到英伟达的黄仁勋发布了GH200芯片组,我觉得差距是不是又拉大了。

骆轶航:所以我才问差距究竟是在变大还是变小,这个事是动态的,一会儿大一会儿小。

周鸿祎:要看角度。算力差距肯定是拉大了,人家内存大概144TB,整个模型放进去都绰绰有余,这样就不需要搞好几百台电脑集群训练了,同样参数的模型,过去一个月才能训练完的,现在三个小时或者一天就能训练完。

这种迭代速度太惊人了,因为很多时候训练的结果不一定是收敛的,可能训练一个月后发现是一地鸡毛,还得从头训练,但一个月的时间已经过去了。因此别人的训练速度可能比你快上百倍,从这个角度来说,中美之间算力带来的大模型差距拉大了。

我的感觉跟你是一样的,大家都感觉很焦虑,三个月就像三十年,每天都有层出不穷的围绕大语言模型的成果,软的硬的,各种框架开源工具都有出来。但整体来说,我还是倾向于比较乐观。

骆轶航:但不少同行觉得用一个很快的时间就能追赶上ChatGPT的现在水准,当然ChatGPT本身也在迭代。

周鸿祎:我觉得差距是客观存在的,只是行业中有人爱吹牛,如果要准确预言差距将会在哪一天赶上,我个人觉得还是应该谦虚一点,毕竟中国还是有很多人真正用过GPT4.0的,你不能因为大部分人都没见过就吹牛吧。

我们应该找到差距在哪里,然后找到合适的场景充分发挥它的能力同时让用户对创新和面临的困难有宽容和理解的接受度,不然吹牛吹得太大,大家期望很高,结果一用起来很失望。

垂直领域的机会还远远没有表现出来

骆轶航:同行中您比较看好谁?是比360体量更大的巨头,还是创业公司?

周鸿祎:我觉得各有各的优势,最关键的是中国不会只有一个GPT4.0就满足了,也不会只有一个大模型。

现在有一个趋势是把大模型做小,小到一台安装了英伟达3090、4090芯片的机器可以微调,甚至是将来在IoT(物联网)设备上部署,这就决定大模型算力结构将来会无处不在。

当年计算机刚出来的时候也有人总结过,全世界人民需要五台超级电脑就够了,但真正改变工业革命的东西是个人电脑,进入每个家庭、进入每家公司,安装不同软件来干各种各样的事情。

骆轶航:也就是说会涌现出许多垂直模型?

周鸿祎:我觉得会比想象像更快。

大家需要改变想法,不要以GPT4.0作为Benchmark(对标)。,就像一个哈佛培养的博士后,水平是很高,获得了十几个博士学位,我们想复制一个短期内有点难,但这不妨碍我们培训出来一个211或者985的大学本科生,他的场景目标很现实,就是直接训练垂直业务。

因为你用GPT就会发现很多问题它貌似能回答,但缺乏行业深度,因为它太通用了。如果把大语言模型看作一种生产力工具的话,我非常坚信在垂直领域其实很多机会远远没有被表现出来。要是真正完全用ChatGPT4.0看病,开的药方你敢吃吗?你真正完全用ChatGPT写诉状打官司,那不是会出事吗?美国有一个例子就是一家公司打造了法律行业的大模型,它不会唱歌、不会写诗、不会做脑筋急转弯,但会回答法律问题。

因此,很多企业都需要自己定制的ChatGPT。

骆轶航:随之开发成本、部署成本、训练成本会降低对么?

周鸿祎:这事儿已经不是秘密了,因为难度降低了很多,所以还是要感谢开源,各种大模型相当于新鲜的大脑供你选择,至少短期内将knowhow(知识和认知)变成用数据灌进往里面进行预训练,或者根据行业的特点,针对将来行业可能用到的能力进行微调。

训练的数据和训练的方法现在一样重要了,感谢开源生态,这些方法都在逐步被显露出来。拥有和部署一个大模型的成本在急剧降低,但要是说大模型目标就是比肩GPT4.0甚至5.0,那投入依然是巨大的,竞争依然是激烈的。

三星前不久有员工把公司的机密数据放到ChatGPT上训练导致数据泄露,这是一个很典型的例子,无论是国内还是国外都可能就存在数据泄露的问题。现在很多企业试图训练自己的GPT,因为他们攒了很多安全内部数据,这些数据是他们的吃饭家伙,能够拿来去训练一个通用大模型吗?不可能。

所以只能去训练企业专有GPT,让大语言模型更了解行业,更了解企业。未来这个市场应该是有非常大的场景和机会。

今天下午我会参加我们公司一个视觉大模型和智能设备结合的发布会。大家现在都在谈软件APP,智能硬件的AIoT一直没有真正实现,大模型真正成为人工智能以后这方面有非常巨大的机会,将是又一个重要的应用场景。

现在的智能网联汽车,比如特斯拉,要不要用大模型?肯定要,但车的速度很快,需要响应很及时,大模型如果在云端可能不一定能及时响应,而车上安装一个大模型成本不会特别高,可能就是一个英伟达3090处理器的成本。

骆轶航:是车要追求精准,大语言模型精准不了。

周鸿祎:所以只有专有垂直的大模型才有可能解决所谓幻觉的问题。

骆轶航:只有专有的大模型才不胡说八道。

周鸿祎:大模型胡说八道不是独有的,大家都有这个问题。举个例子,你问所有GPT大模型,汤姆·汉克斯演过几个电影?它最后一定会胡说八道一堆汤姆·汉克斯没有演过,甚至压根不存在的电影给你。我对这个知识模糊思考了很久,这是生成式智能算法不可避免的问题,它在模仿人类学习知识的过程中更注重对知识范式的学习,对知识的细节做了很多压缩,甚至是有损压缩。

骆轶航:跟人类学习的过程都是反的。

周鸿祎:只是部分沿用人类的学习过程,对知识模糊的应对必须借助搜索能力。大模型并不能够取代搜索,相反,一个强大的搜索无论是基于全文检索还是向量数据库,能够对大模型带来两个校正。一个就是训练时间延误导致的不知道“今夕是何年”的问题,另一个就是知识模糊,很多可笑的问题如果有搜索能力做辅助那容易就可以解决,在企业级和专业级大模型上都是如此。

骆轶航:能不能说通用大模型的出现,是为了未来出现更多解决特定问题的小模型?

周鸿祎:对,包括Hugging Face最近出现一些新的计算框架,本身和模型没关系。有一种思路是主驾驶思路,因为大模型善于理解语言,可以跟人交流,这样在理解人的意图以后,大模型可以调用很多其它应用系统或其它小模型。我们干嘛为什么一定要让哈佛出来的有十几个博士学位的教授来干所有的事情呢?十几个不同专业的员工用不同的小模型、不同的训练方法干不同的事情才是合理的,最后需要一个大模型把它们协调起来。

这里还有一个成本问题,维护千亿级的大模型,不说预训练成本很高,就是定期每个季度组织训练一次,做一些微调,成本都会非常高。如果是做企业专有的垂直模型,可能一个60-70亿参数或者100亿参数出头的模型,维护运营成本会非常低,改动起来也会非常快速,所以大模型并不是万能的。

最近Hugging Face还有一个“Agent”模式,就是有外面的“Agent”调用大模型,完成工作规划、分解和落地。围绕大模型有很多程序,也有很多小模型、小应用可以弥补,它们就像胶水一样粘合在一起。大模型不是万能的,但通过各种模式合在一起可以取长补短,完成擅长的事情。

不要太着急于所谓“大模型生态”

骆轶航:追求某个行业、某个领域数据的精准、数据的反馈,落实到应用上面还是小模型更靠谱。

周鸿祎:我们自己训练大模型过程中发现一个特点,就是数据种类必须非常均匀,掺点文科的,掺点理科的才行,如果最近狂灌物理题就会出现遗忘现象,很多技能会急剧下降,我猜跟训练过程中内部概率统计的参数变化有关系。

要做一个很大的模型,满足十个亿用户的长尾需求,一会儿能算高数问题,一会儿能给出人生答案,一会儿能写一首诗,一会儿能写宝马汽车广告文案这是非常难的。

为什么我鼓吹力倡中国走大模型之路?可能我不是在一夜之间追上GPT,需要有几年的时间,但不能说追不上GPT我们的产品就是垃圾,就不做了,不做的话永远赶不上别人,但达到60、70分甚至80分的水准,在很多垂直领域中,这种弱点就变得不那么重要了。

骆轶航:打个不恰当的比喻,其实通用的大语言模型更像苏格拉底和柏拉图,因为那个时代的先知什么事情都知道,物理学、数学、化学都懂,包括亚里士多德,我们期待对人类更有用的模型可能是钱学森、袁隆平,就是在具体领域非常专精的。

周鸿祎:我说的比你还极端,大模型就像当年个人电脑,它本身是通用架构,加上不同的软件、不同的环境,可以干很多事情。

我觉得今天不要太着急这个Ecosystem构建大模型的生态环境,因为现在大家对大模型怎么做的都还没有搞弄清楚,你指望生态系统直接出来直接考虑做生态系统?我觉得有点太着急了操之过急了。

现在大家连发布都还没正式发布,只有发布以后。这里还大模型的应用不只是在to C的场景,另外我个人觉得大家也要关注大模型在to B领域的应用。像你这样研究prompt,研究大模型的,门槛和难度还是比较高的,尽管个人消费者也可以用它来但分析一个上市公司的年报,读一篇论文,个人消费者也可以使用,但普通用户真的会用吗?大多数人没有这种学习的欲望和分析的需求的。

大模型最大的意义就是作为企业、国家、行业提高生产力的工具。

我想给品玩一个建议,其实品玩没有必要做。

骆轶航:是品玩没有必要做大模型还是品玩都没有必要做了?

周鸿祎:没有必要做模型,只要打造一个骆轶航的个人GPT就好了,上面挂一个360行车记录仪,每天去哪里全部记下来,站在台上的一个小时,全部都数字化记下来,把这些数据全部链接训练两年,就能训练一个专有的骆轶航版本的GPT,训练两年。

《流浪地球2》就描绘了数字影像,把你的人生拷贝在U盘里面,然后插在一台超级计算机,电影里好像叫W500。我刚开始想这不是鬼话天方夜谭吗?等我看到GPT后就发现这是完全有可能的,哪一天我把你“干掉”以后,你不就永生了?因为我们还是可以跟你的数据分身进行交流,你的数据分身可以站在台上滔滔不绝地回答我的问题。

骆轶航:你宁愿看到我的分身也不愿意看到我本人是吗?回到刚才的问题,你还是没回答国内更看好谁做大模型。

周鸿祎:你问我更看好哪个GPT,我觉得我看好的都不重要,所有公司都有自己的优点,特别是中国互联网公司为什么都要自己做?第一难度没有那么高,第二代表着人工智能的未来,因此不是用了别人的API就可以的,必须要对别人有所了解。

GPT优先解决要NLP(自然语言处理)问题,NLP是所有人工智能皇冠上的明珠,谁参玩透了语言的理解谁就真正理解了这个世界,成为未来其它人工智能任务的底座。OpenAI最大的创新和指明的道路,就是把所有文本序列当成一个sequence(序列)进行猜测和预测,所以现在处理视觉、处理声音,大体也都是这个思路。用大模型做多模态效果要比原来的CNN(卷积神经网络)和DNN(深度神经网络)的玩法先进很多。

如果我们把所有东西都看成序列,那么从机器人到自动驾驶,都有可能用大模型结合其它模型形成技术上的突破。DeepMind对蛋白质的分析,甚至人类对基因序列的分析,大模型算法都有可能帮助形成突破,因为基因序列也是一种序列啊。!甚至,大模型工具在将来可能变成数学家、物理学家手里的工具,帮助人们研究前沿科技。

骆轶航:现在大家都在讲生成式Generative生成式人工智能,或者是Predictive预测式人工智能,它们的背后都是一套通用的大模型底座是吗?

周鸿祎:对。目前网上出现的很多开源给的已经不是一个“干净”的东西,而是经过预训练很多数据集,能力虽然不高,但General知识是有的,剩下就是交给自己微调,就像往专业方向发展。最近国内也有开源的趋势,所以我觉得还是得感谢开源。

骆轶航:您觉得现在开源的趋势怎么样?最近也有很多中国开发者是在开源社区里面,但还有哪些方面做得不够?

周鸿祎:国外的想要开源是因为这是体现了市场经济条件下的人多力量大,聚集更多的人,因为靠一家公司、一个团队支撑不了。我觉得Meta的LLAMA系列的发展就是相互刺激,可能一个开源项目只有40分,但刺激你一下就会做到60分,另外一家可能做到80分,国内还没做到是习惯把开源改一改自己用。

骆轶航:不再把自己的成果返回给开源Community。

周鸿祎:可能需要一个过程。

我觉得三个月都像过了三十年

骆轶航:因为大语言模型的出现,General AI这样的人工智能出现,您认为未来五年会发生什么?

周鸿祎:怎么总是想那么长远的事情?我觉得三个月都像过了三十年。

其实现在我的策略非常清楚,再牛的人也要符合大势,中国的大势就是产业数字化,互联网数字化的公司在里面其实是配角。我觉得360就是做好两件事情:一个是数字安全,光是网络安全不够,要有数据安全。另一个是人工智能安全,这是最复杂的,也是现在大家最关心的。我们国家可能也有很多政府部门关注这些事情,今天还回答不了人工智能产生意识以后变成新的物种会不会造成大规模的社会问题。

我认为人工智能的意义不亚于电脑和互联网,是一场新的工业革命,也是数字化的顶峰。大家好不容易上云有了大数据,但这不是数字化的终结,得把大数据轰灌到大模型里,变成一个通用的智能服务才能像电一样赋能百行千业。

360现在所做的各种场景都值得用人工智能重做一遍,所以会把存量和增量的场景都做一遍。

骆轶航:不光是存量,增量也有很多。

周鸿祎:就是打造企业级、行业级的GPT,包括面向中小企业的GPT。直接给到中小企业大模型他们是不会用的,必须经过SaaS化的包装,所以就是安全和数字化两条腿。

谢谢你给我的这点广告时间。

骆轶航:广告时间还是要给的,但今天还是更感谢周总,时隔几个月迭代得这么快,已经迅速地从对大语言模型的迷思中走出来。美国人要谈民主化人工智能、民主化大语言模型,如果我们也套用他们的话,最重要的就是让每个人都能够用对自己真正有用、让每个开发者用得真正更简易,每个想搭建自己模型的人,真正搭建符合自己企业、产业、行业需要的模型。

周鸿祎:这就是科技平权,我一直在思考GPT这种大语言模型究竟能够带来多大变革?我们这一代人跟英伟达黄仁勋黄老板一样,四十年前经历了PC的问世,你会发现电脑被发明的时候是没有带来产业革命的,就算再强大,它只是军队研制核武器的工具,是气象局预报天气的工具,是政府做人口统计的工具,跟普通人没有关系。

什么时候产生工业革命?其实就是科技平权,PC走进千家万户。手机也是一样,因为智能手机,今天一个流浪汉也任何人都能拿出手机刷短视频,找你刷二维码付费。一个东西多有力要看是不是能够渗透到千家万户、百行千业,原来大数据不具备这个能力,。品玩公司可能也有大数据,但想直接利用的话很难,需要有人帮你分析。

大语言模型解决了利用大数据、分析大数据的问题,创造了一种通用人工智能的问答能力甚至写作能力、讨论能力,这种通用能力使得跟行业无关,能够赋能百行千业,赋能千家万户,我认为这绝对是工业革命级的发明。

骆轶航:最后扯一个小闲天您怎么评论黄仁勋目前的生意和英伟达万亿市值?

周鸿祎:这个我很难评价,我跟老黄最熟的时候是他最失意的时候,那个时候他一直在为英伟达的微电子芯片找出路,当时英伟达试图进军移动市场,但是他的手机芯片实在是太热了,热到发烧。

我那时和一个创业者一起想要用芯片做家用游戏机,进入console game(手柄游戏)这个市场,于是就跑到硅谷去见老黄了,老黄很重视这件事情,请我吃牛排大餐,但事实证明,console game是非常独特的市场,历史上只有索尼、微软和任天堂成功了。

老黄其实有一段时间业务很迷茫,希望给业务寻找出路,所以对来自中国的两个创业者也表现出很大的尊重和尊敬。我认为老黄今天的成功不是运气,而是靠坚持得来的。按照我设想的情况,以后大模型无处不在,如果都需要英伟达的机器,需求当然是很大。

过去几年我们都在建立超算中心,但很多超算中心都闲置,因为它无法做通用计算任务,缺乏一个通用计算架构,如果都换成英伟达的A100或者A800,保证大概生意会好得多,因为全世界对英伟达的需求还是非常旺盛的。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK