4

酷睿轻薄本上跑 Stable Diffusion,英特尔这项绝活背后的价值

 1 month ago
source link: https://www.stablediffusion-cn.com/sd/4455.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

酷睿轻薄本上跑 Stable Diffusion,英特尔这项绝活背后的价值

SD中文网 • 2023年11月16日 pm8:43 • Stable Diffusion • 阅读 972

自从ChatGPT引起轰动,生成式AI的巨型模型在全球掀起了一场科技风暴。AI,作为数字未来最为关键的基础技术,注定会对人类社会的生活和生产带来深刻的变革。

AA1k0YHC.img_

然而,眼下看来,AI离真正改变世界还有漫长的道路,推动生成式AI的大规模扩展和应用,还面临着重重挑战。

例如,目前生成式AI的大模型产品主要运行在云端。尽管在传统认知中,云端提供了远超终端的算力和存储,但现实并非如此。在使用这些云端大模型产品时,我们经常会遭遇响应缓慢、生成失败等问题。尤其是在高峰期,即便是云端服务器也难以满足极端的算力需求。

AA1k15WU.img_

此外,对于服务提供商而言,生成式AI每次搜索查询的成本是传统搜索方法的10倍。考虑到每天超过100亿次的搜索查询,这对云端算力和成本的压力难以想象。

在这种情况下,生成式AI向终端侧的发展变得尤为关键。

尽管单一终端的算力显然无法与云端服务器相媲美,但如果能调用全球数十亿甚至数百亿终端的算力,无疑可以大大减轻云端的负担。这正是AI向终端侧发展的基本逻辑。

更为重要的是,在半导体产业的努力下,近年来终端的AI性能和算力也取得了巨大进展。以生产力为重心的PC行业领导者英特尔,在PC终端上为生成式AI的实际应用做出了卓越的贡献。

比如,在我们传统的认知中,运行多模态的AI大模型必须依赖具有超大显存的专业显卡完成大量的AI并行运算。那么,对于轻薄笔记本或者消费级台式机来说,是否也能够顺利支持AI大模型的运行呢?这正是英特尔在终端侧AIGC方面努力的方向之一。

AA1k0YHJ.img_

目前,英特尔的第12、13代酷睿处理器以及英特尔锐炫显卡在PC本地端可以满足AIGC的高速算力需求。

对于锐炫显卡而言,英特尔持续增强其性能体验。自推出以来,英特尔锐炫显卡已经发布超过20个版本的驱动更新。在今年早些时候,英特尔通过Game On驱动的发布,提升了锐炫显卡在运行一系列备受欢迎的DX11游戏时的性能。这使得游戏帧率平均提升约19%,99th百分位帧率流畅度平均提升约20%。

而在今年5月,英特尔展示了使用生成式AI加速创作文生成图的示例。基于英特尔OpenVINO,AI绘图开源模型Stable Diffusion可以在英特尔锐炫A750、A770等显卡上流畅运行。只需输入简单的文本,就能智能实现创意绘图,对于图片创作者来说非常实用。

今年8月,英特尔又展示了基于OpenVINO PyTorch后端的方案,使用Pytorch API让社区开源模型在英特尔的客户端处理器、集成显卡、独立显卡和专用AI引擎上运行得非常好。

例如,对于开源图像生成模型Stable Diffusion,英特尔启用了OpenVINO的加速。他们开发了一套AI框架,通过一行代码的安装,就可以加速PyTorch模型的运行。通过Stable Diffusion的WebUI,可以在锐炬集成显卡和Arc独立显卡上运行Stable Diffusion Automatic1111。

photo-1613616631374-121ea711cc3d

在这其中,让Stable Diffusion在搭载集成显卡的轻薄本上运行,无疑是一件具有重要意义的事情。

比如,IT之家选择了一款轻薄本进行测试,这款产品是通过英特尔Evo平台认证的华硕破晓Air,搭载英特尔13代酷睿i7-1355U处理器,锐炬Xe集成式显卡,16GB LPDDR5内存。

可以看到,在华硕破晓Air集成显卡上,Stable Diffusion的表现效果非常出色。96EU版本的英特尔锐炬Xe显卡强大的算力,支持Stable Diffusion软件上运行FP16精度的模型,能够快速生成高质量的图片。使用华硕破晓Air生成一张”有黑色耳朵的小狗”,只用了十几秒的时间。这是一张512×512的图片,如果想要画得更好,用户还可以自己调节参数。

此外,让Stable Diffusion生成一张”一大堆煎饼垒起来的食物摄影”,在华硕破晓Air上同样可以轻松生成,并且效果显著。

通常情况下,人们认为轻薄本不适合进行AI方面的工作,因为它的配置较低。然而,通过Stable Diffusion的演示,大家可以看到Evo高性能轻薄本确实能够胜任这些简单的AIGC图片创作工作。

过去我们很难想象轻薄本能够拥有如此强大的性能。但随着13代酷睿处理器在性能和功耗比方面的进步,以及锐炬Xe Graphics(96EU)在FP16、FP32浮点性能的大幅提升,同时加入了INT8整数计算能力,这些都大大增强了GPU整体的AI图形计算能力。这也是华硕破晓Air等轻薄本能够在本地侧良好运行Stable Diffusion的重要因素。

值得一提的是,在英特尔下一代酷睿处理器Meteor Lake中,GPU核显性能将得到进一步提升,将拥有8个Xe GPU核心和128个渲染引擎,还会增加8个硬件的光追单元,并引入Arc显卡的异步拷贝、乱序采样等功能,并对DX12U进行了优化。

不仅如此,英特尔还在Meteor Lake中加入了集成式NPU单元,以实现更高效的AI计算。它包含了2个神经计算引擎,能够更好地支持生成式AI、计算机视觉、图像增强和协作AI方面的内容。

同时,除了NPU,CPU和GPU也都可以进行AI运算,不同场景下会使用不同的AI单元来应对,实现彼此协调。这样一来,整体能耗比相比前代最多可以提升8倍。因此,未来搭载Meteor Lake处理器的轻薄本在本地AIGC创作方面的表现会更加引人期待。

此外,如果追求更好的性能,用户还可以选择搭载英特尔锐炫Arc独显的设备。在Arc独显上运行Stable Diffusion,速度会更快。例如,早些时候英特尔展示了在搭载i7-13700K CPU + Arc A770独显的机器上运行Stable Diffusion “图生图”、”人物动作三维数字重建”的效果,速度非常快。

总之,未来对于PC而言,性能不再局限于处理器的核心数、线程数、主频等传统参数,更在于AI运算和创作能力是否强大。换句话说,AI定义芯片的时代正在来临,而AI PC将真正帮助我们实现生产力的巨大解放。因此,英特尔在实现终端侧AIGC方面所做的努力无疑具有重要的意义,他们为用户提供了更智能、高效的移动计算体验,推动人工智能技术的发展和应用朝着终端和云端协同的新阶段迈进。

原创文章,作者:SD中文网,如若转载,请注明出处:https://www.stablediffusion-cn.com/sd/4455.html


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK