2

阿里通义千问VS百度文心一言:谁更懂张继科?

 1 year ago
source link: https://www.techug.com/post/ali-tongyi-asked-vs-baidu-ernie-bot-who-knows-more-about-zhang-jike1f74d1171b163a2a94cd/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

阿里通义千问VS百度文心一言:谁更懂张继科?





文 丨 新浪科技 周文猛

市场期待许久的undefined“通义千问”问世,并于昨日开启测试体验。这是续undefined、360之后,中国互联网大厂的又一“玩家”首秀。

作为首批获邀参与内测的媒体,新浪财经体验了“通义千问”,并与文心一言、ChatGPT两款产品进行对比。

这次对比中,我们列举了5个维度的问题,分别为:生成代码、中文理解、写作文章、提纲写作,以及热点事件解读。

三款产品,孰强孰弱?一测见分晓!

实测5问,性能如何?

生成代码:请写一段冒泡排序算法?

作为助推ChatGPT成功出圈的主要功能,ChatGPT自动生成代码的能力最广为称道。那么,通义千问的代码生成能力如何呢?新浪财经最先向它提出了“写一段冒泡排序算法”的请求。以下是回答:



(通义千问回答)



(文心一言回答)



(ChatGPT回答)

点评:从生成逻辑上来看,“通义千问”先是简单地描述冒泡算法的实现逻辑,然后给出具体的Python代码,最后给出代码实现思路的讲解。就具体的“代码段”而言,实现逻辑与文心一言生成的代码一致,整体较为简洁,但实现能力不分伯仲。

相对而言,ChatGPT生成的代码更为简洁,仅为四行,但语言介绍内容较多。

中文理解:洛阳纸贵是什么意思?

作为一款国产AI大模型产品,通义千问对于中文的理解能力,同样是undefined关心的问题。此前,百度创始人、董事长兼首席执行官李彦宏在发布文心一言时,曾以洛阳纸贵一词演示文心一言对于中文语言的理解能力,同样的问题,通义千问如何作答?



(通义千问回答)



(文心一言回答)



(ChatGPT回答)

点评:通义千问给出的答复与文心一言有细微差异,但成语出处、基本语义等理解都已经十分到位。需要指出的是,目前ChatGPT对于中文语义的理解能力也不弱,与前两者的差距并没有那么大。

提纲写作:请写5个对比尔·盖茨进行采访的问题?

自ChatGPT推出以来,其对于文案创作、邀请函拟定等方面的功能引发了大量讨论,由于极大地提升了工作效率,一些文员、记者也开始运用ChatGPT来拟定采访问题。

当新浪财经先后向通义千问、文心一言以及ChatGPT提出写作“采访比尔·盖茨的问题提纲”这一要求时,三款产品给出的问题各不相同。



(通义千问提纲)



(文心一言提纲)



(ChatGPT提纲)

点评:整体看来,提问方向各有千秋之外,通义千问在给出问题方向的同时也给出了更为详尽的写作思路,较后两者更加用心、细致。

事件理解:张继科最近为什么特别受关注?

对于热点事件的回答质量以及速度,是检验一款AI问答产品对于网络内容即时获取能力的关键,而这背后代表的则是问答产品知识更新以及获取能力的关键。

近日,“网传张继科用前女友私照抵赌债”一事引发广泛关注,三款大模型将如何作答?



(通义千问回答)



(文心一言回答)



(ChatGPT回答)

点评:当新浪财经将这一近乎全网皆知的事件提问给通义千问、文心一言以及ChatGPT时,三款产品给出的答案对近期事件一概不提,但都展开了大长段的“忽悠”式分析。

写作文章:请以“AIGC变革内容生产模式”为题写深度文章



(通义千问写作)



(文心一言写作)



(ChatGPT写作)

点评:在写“命题作文”方面,通义千问和文心一言整体表现不分上下,但是ChatGPT却因为将中文环境下的“AIGC”理解为AI、区块链、大数据和云计算,最终导致对于文章主旨理解的错误,直接跑题了。

从这一点可以看出,虽然ChatGPT开启了生成式AI风靡全球的序幕,但是由于不对中国市场开放,这导致了他的数据存在不适应中国语境的情况,已经出现被国产GPT产品局部超越的情况。

总结:回答各有千秋,通义千问交互体验更优

多轮次多维度对比测试之后,新浪财经发现,通义千问与问心一言、ChatGPT相比,在生成代码、中文理解、写文章等方面各有千秋;在提纲写作方面更加细致贴心,能够给出更加具体的内容方向。不过,在热点解读等方面,三款产品均存在望文生义,随口胡诌的倾向。

在内容的时效性以及画图等能力方面,文心一言有一定优势。不过作为后来者,通义千问在回答问题的响应速度、人机交互的操作形式方面,均比问心一言和ChatGPT有着大幅提升。

在输入相同的问题时,通义千问几乎只需要3秒便可以开始回答,然而文心一言和ChatGPT在回答部分问题时可能提问4—6秒后才能开始回答。而这背后代表的,其实是算法效率、存储访问速度等方面的技术底蕴。



此外,从三款产品的用户界面也可以看出,通义千问的操作界面和窗口要显得更加的简约大方,少了一些极客范儿,却多了一些实用性和亲民性。除首页分别就写邮件、短文、电影脚本等进行分类,点击可直接进入相应的对话框提问外,更是通过百宝袋将各种功能做了效率类、生活类、娱乐类分类,让使用者有了更多体验的乐趣,交互引导性更强。







结语:大模型时代,需要更多中国力量

需要承认的是,相比于当前的业界标杆ChatGPT(GPT-4),通义千问还有不少进步空间。不过作为一款持续迭代的产品,快速迭代的通义千问已不容小觑。凭借着阿里云的算力资源以及undefined整体的数字、资源优势,通义千问的比较优势不言而喻。

可以预测,随着百度、360集团以及undefined先后推出自己的“类ChatGPT”产品,一场新的大模型争夺战再次在国内互联网头部企业之间打响。在市场规则的牵引之下,后续通义千问、问心一言等产品将会结合不同集团公司的资源禀赋、技术特色,形成各自差异化的特征。

正在快速到来的大模型时代,需要中国企业的身影,而且不仅仅是一家企业的身影。

本文文字及图片出自 新浪网


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK