11

GPU决战新时代,本土厂商加速入局

 3 years ago
source link: https://zhuanlan.zhihu.com/p/321303508
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

来源:内容来自半导体行业观察(ID:icbank)原创,作者:穆梓,谢谢!

在英伟达于2000年收购3DFX,以及AMD在2006年收购ATI之后,桌面GPU这个市场本来就已经尘埃落定。

英伟达是GPU市场当之无愧的巨头,AMD的GPU则挣扎前行,而Intel则依靠其CPU的号召力,在集成显卡市场拥有绝对的号召力,但在独立显卡市场,无论是之前的Intel 740还是后续的Larrabee都无疾而终。

但在Alex Krizhevsky使用英伟达GPU成功训练出了深度卷积神经网络AlexNet,并凭借该网络在图像分类识别领域大幅提升了性能之后。人工智能新时代正式开启。也正是从这个时候开始,GPU市场开始进入了一个新阶段。英伟达则成为这个时代当之无愧的大赢家。

MBNJ7j3.jpg!mobile

英伟达从2012年到现在的股价走势

英伟达叱咤AI时代的两大利器

回看图形处理器的发展史,据相关资料显示,MIT在1951年制造的Whirlwind也许是世界上第一个3D图形系统,但这不是现代GPU的基础。据报道,现在的GPU雏形是基于上世纪70年代中期的所谓视频移位器(video shifters)和视频地址生成器(video address generators)组成的。

在历经大型系统、小型工作站的发展后,图像处理器在90年代中后期于PC上的3D游戏而发扬光大,在此期间,不少公司涌入其中,英伟达也是其中的一家。据英伟达官网介绍,在他们成立的1993年,全球有超过二十家的图形芯片公司,到1997年,这个数字猛增至70家。但到2006年,英伟达是唯一仍在运营的独立公司,他们也成为最后的赢家。被其冲上沙滩的前浪包括了ATI、S3 Graphics和3DFx等竞争对手。

7ve2Abi.jpg!mobile

和其他玩家一样,英伟达最初成立的时候也只是聚焦于显卡市场,最初推出的两款产品NV1和NV2也市场反响平平平。但英伟达不气馁,投入大量的经历去研发NV3,并在1997年推出。作为全球首个128位3D处理器,NV3在推出四个月后的出货就突破一百万。因为NV3能对OpenGL的良好支持,英伟达自NV3开始,逐渐打败了当时市场占比高达85%的3DFx,成为了显卡市场的霸主。

值得一提的是,英伟达表示,他们在1999年发明了GPU( 这是NVIDIA首创的词汇,GPU即是Graphics Processing Unit的缩写),而当年推出GeForce 256就是全世界第一款GPU。

如果英伟达接下来,还是只盯着图形市场,那么他们的充其量就就只是下一个3DFx,但黄仁勋有更大的野心,那就是把GPU推到通用市场,这就是大家所熟悉的GPGPU。

据半导体行业观察之前的报道:“在2000年左右,学术界对于使用GPU做通用计算(GPGPU)产生了兴趣。当时,主要面向执行通用算法的CPU是执行科学计算的主力,但是CPU为了能在通用算法上都有较好的性能,因此很多芯片面积事实上用在了片上内存和分支预测等控制逻辑,而真正用于计算的单元并不多。相反,GPU架构中的控制逻辑较为简单,绝大多数芯片面积都用于渲染、多边形等计算。学术界发现,科学运算中的矩阵等计算可以很简单地映射到GPU的处理单元,因此能实现非常高的计算性能。”

报道进一步指出,当时,GPGPU最主要的瓶颈在于难以使用。由于GPU是面向图像应用而开发,因此要在其编程模型中支持通用高性能计算并不容易,需要许多手工调试和编码,因此造成了很高的门槛,能熟练使用的人并不多。

IzMbMzb.jpg!mobile

为了让GPU从软硬件都走向通用,英伟达在2006年推出了Tesla架构,一改之前使用矢量计算单元做渲染的做法,而是把一个矢量计算单元拆成了多个标量计算渲染单元。这就使得基于这个架构的GPU除了渲染能力强以外,还适合做通用计算。

vy6viuy.jpg!mobile

也就是在这一年,英伟达推出了CUDA。按照他们的说法,这是一种用于通用GPU计算的革命性架构。CUDA将使科学家和研究人员能够利用GPU的并行处理能力来应对其最复杂的计算挑战。

正是得益于这两个方向的布局,英伟达在AI时代如鱼得水。

据行业专家所说,现在的云端AI芯片市场,除了谷歌自用的TPU外,其他绝大多数的厂商都是使用英伟达的GPU来做相关的模型训练,这让英伟达在云端AI芯片的市场居高不下。这也让英伟达的业绩在过去几年屡创新高。根据赛迪顾文的预测数据显示,光是国内的云端AI芯片市场,在2019年到2021年间的累计增长将高达152%,麦肯锡也预测,在未来几年,训练市场将成长迅猛,且在未来十年,这还将是英伟达GPU的天下。

7jAb6bv.jpg!mobile

看到这个数据需求和预测,国外就涌现出了类似Graphcore IPU和Google TPU等ASIC产品,计划在训练市场挑战英伟达。Intel和AMD则希望在GPU硬扛英伟达。

AMD和Intel的蠢蠢欲动

其实早在英伟达进军GPGPU的前后,AMD也有了相应的计划。但和英伟达属在过去多年里大力投入推行CUDA开发环境不一样,AMD将鸡蛋都放在了“OpenCL”这个篮子里面,这就导致即使他们在2017年发布了ROCm平台来提供深度学习支持,但也改变不了他们GPU在AI时代几无所获的结局。

但AMD不甘心。为了与Nvidia竞争,AMD在今年三月份推出了新的CDNA架构。据介绍,这是AMD针对数据中心和其他用途的,专注于计算的GPU体系结构。AMD针对CDNA的目标既简单又直接:构建一个大型的,功能强大的GPU系列,这些GPU针对一般的计算和数据中心使用进行了优化。

32aYJfn.jpg!mobile

据介绍,新架构中很大一部分的性能提升将会体现在机器学习方面,这意味着支持更快地执行较小数据类型(例如INT4 / INT8 / FP16),而AMD在介绍新架构的时候也明确提到了张量运算。此外,新架构可以通过Infinity Fabric互连总线灵活设计性能,并支持增强的企业级RAS特性、安全、虚拟化技术,还将提供更高的能效比,从而降低企业TCO成本。

基于这个架构,AMD在本月中发布了新一代的Instinct MI100计算卡。数据显示,新的架构可提供高达11.5 TFLOPS的FP64峰值吞吐量,这使其成为第一个在FP64中突破10 TFLOPS的GPU。与上一代MI50相比,新加速卡的性能提高了3倍。它还在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量。数据显示,AMD的新加速卡在这两个类别中都击败了Nvidia的A100 GPU。

N7ZNJ3r.jpg!mobile

Instinct MI100还支持AMD的新Matrix Core技术,该技术可提高FP32,FP16,bFloat 16,INT8和INT4等单精度和混合精度矩阵运算的性能,还可将FP32性能提高到46.1 TFLOPS。

为了更好地与英伟达竞争,AMD还表示,其开源ROCm 4.0开发人员软件现在具有开源编译器,并统一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

除了AMD外,Intel在最近几年也加大在其GPU的投入,想在AI这个市场分一杯羹。

2iyqYfN.jpg!mobile

据英特尔介绍,公司的Xe架构GPU将覆盖从集成显卡到高性能计算的所有范围。其中代号为Ponte Vecchio的独立GPU则是公司面对HPC建模和仿真以及AI训练而推出的设计。Ponte Vecchio将采用英特尔的7纳米技术制造,并将成为英特尔首款针对HPC和AI工作负载进行了优化的基于Xe的GPU。但直到目前为止,尚未看到Intel的这款新品。

n2AZVbM.jpg!mobile

此外,为了更好地在包括AI在内的应用市场中发挥其包括CPU、GPU、FPGA和AISC在内的芯片的为例,方便开发者编程,Intel还推出了拥有远达理想的OneAPI。在开发者看来,这是一个不错的规划,但同时也是一个极具挑战的任务。

中国厂商加速入局

在GPU重要性日益凸显的今日,国内越来越多的厂商开始投入到这个市场中去。这些厂商中除了有之前一直在这个市场布局的景嘉微、兆芯和航锦外,还有一些新进入这个领域的企业。当中尤其以壁仭、沐曦、海飞科、芯瞳最为知名。

首先看壁仞科技,据官网介绍,该公司创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累和独到的行业洞见。

在产品方面,壁仞科技致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。

再看沐曦,则是由AMD前高管离职创立的公司。据介绍,沐曦集成电路成立于2020年9月,核心团队来自世界一流的GPU芯片公司,平均拥有15年以上高性能GPU芯片设计经验和丰富的5nm流片和7nm芯片量产经验。公司致力于研发生产拥有自主知识产权的、安全可靠的高性能GPU芯片,服务数据中心、云游戏、人工智能等需要高算力的诸多重要领域,填补国内高性能GPU芯片自主可控的空白。

海飞科(Hexaflake)则成立于2019年,是一家高科技初创公司,致力于AI高性能处理器芯片和软硬件全栈系统解决方案的研发,是能够在该领域与国际巨头并驾齐驱的头部AI通用型处理器公司。主要创始人及核心团队汇聚中美各地多位国际顶级资深专家;专长涵盖并行计算与AI处理器体系架构、GPU等超大规模SoC芯片以及处理器系统软件的研发;并曾在国际领先企业核心研发部门长期任职,成功研制多款芯片和系统产品。他们公司成立的目的是共同打造新一代通用型AI处理器芯片及其软硬件生态环境。

芯瞳半导体成立于2018年。在接受媒体采访的时候,他们表示公司的GPU瞄准的应用领域有三个方面:党政八大行业(航空、战车、雷达等)、军队和云游戏。此外,还有授权了Imagination IP的芯动、继承了相关GPU专利的兆芯以及一直做国产CPU的龙芯也是GPU市场的玩家。

考虑到国内的GPU现状和中美之间的贸易状况,上述GPU厂商除了有看中AI市场的玩家外,也有希望在图形GPU市场有突破的创业者。

不过正如行业专家告诉笔者,无论是在图形还是通用计算市场,对于GPU而言,更重要的是软件和开发者生态。只有做好了这个,才是GPU能够商用的前提。国内厂商中何时会有厂商能够真正突围成功的?这值得我们观望。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK