国产大模型十大维度PK，讯飞星火以93分稳居第一-品玩

国产大模型十大维度PK，讯飞星火以93分稳居第一

在技术迸发、智慧涌现的AI时代，中国企业从不会缺席！如果说ChatGPT是生成式AI爆发的“导火索”，那么接连而来的国产大模型就像装满火药的战船，在奋勇冲锋中炸开了一道又一道关口，整体缩短甚至局部超越了与ChatGPT的航距。目前为止，业界比较认可的国产大模型分别有讯飞星火、文心一言、通义千问和360智脑等，而令大家好奇的是，这些国产大模型之间孰强孰弱？近期，老牌知名科技媒体IT之家重磅推出了四款主流大模型的横向测评，其中诸多测试结果令人意想不到。

此次IT之家对国产大模型进行了10个维度的评测，每个维度单项得分10分，累计总分100分。这样的打分机制非常公平，10个维度也依次体现了大模型的场景应用。根据测试结果，讯飞星火以总分93分的成绩一骑绝尘，并且在“终端支持”、“语言理解能力”、“代码编写能力”、“多轮对话能力”“AI助手功能”等单项获满分。百度的文心一言则以84分的总成绩紧随其后，360智脑和通义千问总分与讯飞星火有较大的差距。

具体到测试单项，在终端支持能力上，讯飞星火是目前唯一“五端全覆盖”的国产大模型，五端分别指安卓、iOS、小程序、PC和H5，几乎涵盖了移动端和桌面端的所有设备。用户既可以在上班的时候，将讯飞星火当成AI辅助工具，又可以在移动办公或出差的时候，随时打开讯飞星火寻求“支援”，随时随地获得大模型能力的加持。

在语言理解能力测试上，这向来就是讯飞星火的“主战场”，自AI语音起家，讯飞背靠认知智能全国重点实验室与五大声学实验室，在自然语言理解技术上拥有深厚沉淀。在IT之家的测试中，多次采用“一语双关”或“一语多意”的词汇来检测理解能力，结果讯飞星火都深度理解了语言背后的深层意图，并给出了很有逻辑性且精炼的回答。

在多轮对话能力测试中，IT之家采用唐诗宋词来“考”大模型，结果360智脑把白居易描写草原的诗强行说成描写月亮，犯了“张冠李戴”的错误。而讯飞星火不仅能识别描写月亮的诗词，还自行创作了两首描写月亮的诗，创作水平真不赖。而在代码编写能力上，讯飞星火更展现了极高的“天赋”，生成的代码不仅规范简洁，还直接通过了程序运行工具的检测，可以完美执行。讯飞星火也成为了IT之家在测试中四款大模型中唯一一款生成代码“可用”的大模型，表现突出。

据了解，讯飞星火自5月首发以来，历经6月9日的V1.5迭代，又将要在8月15日迎来新一轮迭代，其官方宣布8月15日将升级代码能力、开放多模态能力，并在知识问答能力等方面持续提升。即便目前讯飞星火在代码能力上已经非常出色，但依然有巨大的向上空间，未来或许人人都可以借助AI之力化身“码农”，这不禁让人们充满了期待。

通过IT之家对四大国产AI模型的横评，几乎可以肯定地说，讯飞星火是目前最好用、最聪明的国产大模型之一，并且未来还有巨大的提升空间，最终要跟ChatGPT“掰一掰”手腕。

如今，国内大模型发展局面已经逐渐明朗，国产大模型梯队也渐渐形成，很高兴看到企业在大模型赛道呈现你追我赶的态势，因为这也成为了实现中国“智慧涌现”的强大引擎。

Recommend

《Quake II》重制版发售在即：将在QuakeCon 2023亮相 - 超能网

机械革命新款无界14 Pro笔记本今晚开卖采用120Hz 2.8K高色域屏

苏宁易购启动第二届家电家装博览会 25城活动预计带动消费超20亿元

Zomato CEO Delivers Food, Friendship Bands on Friendship Day

网信办一纸指令，游戏厂商与手机渠道即便不是“大和解”，也得合作了

英伟达解释GPU供应问题：取决于封装，而不是芯片产量 - 超能网

一加Ace 2 Pro将于8月16日发布坚持“产品力优先”

电信诈骗防骗指南：你之所以还没被骗过，因为适合你的剧本还在路上

Hong Kong crypto game unicorn Animoca Brands invests US$30 million into crypto e...

城市青年有多爱便利店，小镇青年就有多不屑

About Joyk