5

一文看懂存算一体布局全景图:初创公司正另辟蹊径-品玩

 1 year ago
source link: https://www.pingwest.com/a/279233
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

一文看懂存算一体布局全景图:初创公司正另辟蹊径-品玩业界动态

一文看懂存算一体布局全景图:初创公司正另辟蹊径

article-thumb-lg
article-body

(图片来源:海洛)

文/Renee

编辑/孙越

2023年,算力正被ChatGPT推上数字时代的宝座。

在今年第十七届中国IDC产业年度大典上,各路大佬们都在围绕“算力”,展开自己的畅想:

article-body

(何宝宏演讲内容 图源:IDC产业年度大典演讲PPT)

中国信通院云计算与大数据研究所所长何宝宏表示,数字世界消耗最核心的能源是算力,算力是今天的“三次能源”。

称算力是“三次能源”,一是因为算力是通过各种芯片、软件等数字技术,从二次能源电力加工转换而来;二是因为,算力与电力一样有着举足轻重的地位:电力网络是一个国家工业化的基础,算力网络是一个国家数字化的基础。

各路大佬除了对算力提出畅想,也给出了实际规划路线:在大会上,商汤科技、鹏博士大数据、浩云长盛、超聚变、竹间智能等业内专业人士表示,未来数据中心将分化成两种类型:追求极致算力的数据中心与产业赋能型的数据中心。

据介绍,追求极致算力的数据中心旨在提供最大的计算能力,以满足越来越庞大的AI模型的训练需求。这类数据中心主要关注计算能力和效率,目标是实现极高的性能和运算速度,通常会采用最先进的硬件设备,如高性能处理器、GPU和高速内存。

“极致”二字,全然显示着,算力正成为“紧俏货”,需要快马加鞭去布局。这,也是目前的现状:除了“东数西算”工程的启动,国家以及科技企业正加紧对液冷、水下数据中心、量子计算的实践与探索,企图补上算力的“窟窿”。

而当前,最热门的解决方案,莫过于“存算一体”。

存算一体(Computing in Memory),就是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。与以往的冯诺依曼架构相比,其打破了由于计算单元与存储单元过于独立而导致的“存储墙”,能够达到用更低功耗实现更高算力的效果。

自2022年开始,芯片领域“天降紫微星”,存算一体实打实地火了:

学界,ISSCC上存算/近存算相关的文章数量迅速增加:从20年的6篇上涨到23年的19篇;其中数字存内计算,从21年被首次提出后,22年迅速增加到4篇。

产界,巨头纷纷布局存算一体,国内陆陆续也有近十几家初创公司押注该架构:

在特斯拉2023 Investor Day预告片末尾,特斯拉的do#xad;jo超算中心和存算一体芯片相继亮相;

在更早之前,三星、阿里达摩院包括AMD也早早布局并推出相关产品,且“用过的都说好”:

阿里达摩院表示,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍;

三星表示,与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh。

目前,国内的亿铸科技、知存科技、苹芯科技、九天睿芯等十余家初创公司采用存算一体架构投注于AI算力,其中亿铸科技专注AI大算力。

article-body
article-body

同时,我们可以看到,各个初创公司选择了不同的存储介质:RRAM、SRAM、闪存等,且各家公司芯片适用的场景也有所区别。

本文,偲睿洞察将梳理国内外已经入场的科技企业,试图描绘一幅存算一体全景图。

01存算一体的“兄弟姐妹”

一时间,学术界、产业界纷纷向存算一体抛去橄榄枝,而大家所青睐的存算一体,大不相同。

学术界和产业界对存算一体的技术路径尚未形成统一的分类,目前主流的划分方法是依照计算单元与存储单元的距离,将其大致分为近存计算(PNM)、存内处理(PIM)、存内计算(CIM)

近存计算(PNM)

近存计算,本质上仍是存算分离架构,计算操作仍由位于存储外部、独立的计算单元完成。只不过,该构架能够通过存储上移或计算的方式,让数据靠近计算单元,从而缩小数据移动的延迟和功耗。

特斯拉、阿里达摩院、三星等大厂所选择的,便是近存计算

据Dojo项目负责人Ganesh Venkataramanan介绍,特斯拉Dojo(AI训练计算机)所用的D1芯片相比于业内其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。

具体来说,在D1训练模块方面,每个D1训练模块由5x5的D1芯片阵列排布而成,以二维Mesh结构互连。片上跨内核SRAM达到惊人的11GB,由于用上近存计算架构,能效比为0.6TFLOPS/W@BF16/CFP8。业内人士表示,对于CPU架构来说,这一能效比非常不错。

阿里达摩院在2021年发布采用混合键合(Hybrid Bonding)的3D堆叠技术——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。在实际推荐系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍

三星基于存内处理架构,发布存储器产品HBM-PIM(严格意义上是PNM)。三星表示该架构实现了更高性能与更低能耗:与其他没有HBM-PIM芯片的GPU加速器相比,HBM-PIM芯片将AMD GPU加速卡的性能提高了一倍,能耗平均降低了约50%。与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh。

存内处理(PIM)

存内处理,本质上同样是存算分离,不过相较于近存计算,“存”与“算”距离更近:独立的计算单元内嵌于存储芯片,同样也是各干各的。

国内知存科技选择的便是存内处理:2022年3月,知存科技量产的基于PIM的SoC芯片WTM2101正式投入市场。距今未满1年,WTM2101已成功在端侧实现商用,提供语音、视频等AI处理方案并帮助产品实现10倍以上的能效提升。

存内计算(CIM)

存内计算,才是真正的、狭义的存算一体。在该框架下,存储单元和计算单元完全融合,没有独立的计算单元:直接在存储器颗粒上嵌入算法,由存储器芯片内部的存储单元完成计算操作。

这,也就是国内大部分初创公司所说的存算一体:

亿铸科技,基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片,通过减少数据搬运提高运算能效比,同时利用数字存算一体方法保证运算精度,适用于云端AI推理和边缘计算。智芯科微,于2022年底推出业界首款基于SRAM CIM的边缘侧AI增强图像处理器。

并且存内计算,正一步步提高声量:在ISSCC 2023的34个session中,有3个session的标题都直接用到存内计算。

可以看到,大公司与初创公司“自觉”分为两个阵营:特斯拉、三星、阿里巴巴等拥有丰富生态的大厂以及英特尔,IBM等传统的芯片大厂,几乎都在布局PNM;而知存科技、亿铸科技、智芯科等初创公司,在押注PIM、CIM等“存”与“算”更亲密的存算一体技术路线。

综合生态大厂思量的是,如何快速攻破算力和功耗的瓶颈,让自己丰富的应用场景快速落地;芯片大厂们针对客户所提出的高效算力和低功耗需求,开发出符合客户需求的技术。

也就是说,大厂对存算一体架构提出的需求是“实用、落地快”,而近存计算作为最接近工程落地的技术,成为大厂们的首选。

而中国初创公司们,由于成立时间较短、技术储备薄弱:缺乏先进2.5D和3D封装产能和技术,为打破美国的科技垄断,中国初创企业聚焦的是无需考虑先进制程技术的CIM。

02“新老”器件,硝烟四起

从目前发展路径来看,存算一体芯片正处于多种存储介质百花齐放的格局,存算一体架构正承载着多种存储介质:

传统存储器阵营,易失性存储器包括SRAM、DRAM、非易失性存储器包括NAND、NOR等,新型存储器包括RRAM、MRAM等。同时,不同介质使用的应用场景也大不相同。

目前,在传统存储器阵营中,SRAM、DRAM、NOR Flash出现的频次更高。

SRAM

一种静态随机存储器,原理是利用晶体管是否接通来代表一个bit是1还是0,有着以下特性:

article-body

基于速度快、成熟度高、密度难以突破的特性,SRAM一直广受欢迎:

在学术领域,SRAM凭借其高成熟度和高存取速度成为存算一体领域里的热门研究对象;

在市场应用方面,SRAM作为传统存储介质适合IP化,SRAM存算一体在中小算力、端侧、对待机功耗无要求的场景,例如可穿戴设备、无人车等市场具有一定的应用价值:

九天睿芯,基于神经拟态感存算一体架构的芯片已实现量产,应用于智能语音和视觉识别领域。

苹芯科技,开发实现多款基于SRAM的存内计算加速单元并实现流片,目前处于外部测试和demo阶段,产品应用于图像识别、无人机等领域。

DRAM

一种动态随机存取存储器,原理是利用电容内存储电荷的多寡来代表一个bit是1还是0。该存储器有着以下特性:

article-body

基于容量大、成本低、功耗大等特性,DRAM常用于更注重容量的主存储器,如计算机、智能手机、服务器内存等。

NOR Flash

一种非易失闪存技术,利用存储单元的多值特性,通过器件本征的物理电气行为(例如基尔霍夫定律与欧姆定律)来实现多值MAC 运算。该存储器有着以下特性:

article-body

基于低功耗、容量小等特性,NOR FLASH更适用于车载摄像头、激光雷达等应用场景:

article-body

(Flash 在汽车电子中的应用容量与领域 图源:财信证券)

而在新型存储器中,RRAM、MRAM、PCM活跃度更高。

RRAM(ReRAM)

一种以非导性材料的电阻在外加电场作用下,在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。该存储器有着以下特性:

article-body

目前,RRAM工艺正一步步成熟:在2021年,晶圆代工厂台积电现身,为RRAM站台:宣布40nmRRAM进入量产,28nm和22nmRRAM准备量产。

国内同样传来利好消息:2022年2月,昕原半导体主导建设的RRAM 12寸中试生产线顺利完成了自主研发装备的装机验收工作,实现中试线工艺流程的通线,并成功流片(试生产)。

在工艺渐趋成熟背景下,基于兼容性高、微缩性好等特性,RRAM更适用于以下场景:

云端AI推理和边缘计算。亿铸科技基于RRAM研发的“全数字存算一体”大算力芯片,通过减少数据搬运提高运算能效比,同时利用数字存算一体方法保证运算精度,适用于云端AI推理和边缘计算。智能汽车。据云岫资本表示,RRAM不仅满足高读写速度和存储密度的要求,同时延迟可降低1000倍,可满足未来智能驾驶高实时数据吞吐量。安全性方面,RRAM具备宽温和可靠性。未来有望出现高性能、高集成度、高稳定性和低功耗的车规RRAM存储器。AI数据中心。RRAM相较NAND可提升100倍的读写性能,同时保持更低的功耗和高存储密度,有望解决未来数据中心高能效比,低延迟的需求,实现更高性能的AI数据中心。GPT-4等大模型。RRAM基于高密度存储,工艺兼容带来的性能优势,能够实现更低功耗、更高性能,缓解目前的算力压力。MRAM

是一种基于隧穿磁阻效应的技术。该技术的工作原理是使用隧道层的“巨磁阻效应”来读取位单元,当该层两侧的磁性方向一致时为低电阻,当磁性方向相反时,电阻会变得很高。该存储器有以下特性:

article-body

基于耐久性高、低功耗等特性,MRAM有以下合适的应用领域:

适用于消耗大量计算资源的神经网络计算。智能电表等长时间、庞大数据量的应用场景,它能满足对高耐久性和快速写入速度的需求。PCM

PCM的原理是通过改变温度,让相变材料在低电阻结晶(导电)状态与高电阻非结晶(非导电)状态间转换。该存储器有以下特性:

article-body

基于抗辐射性好但成本、良率低等特性,根据我国拥有PCM相变存储器生产能力的集成电路IDM企业时代全芯官网显示,PCM有以下应用领域:

人工智能运算;PCM为基础的TCAM具有占地面积小,功耗低的优点。AIOT;将智能存储器应用与IoT的传感器上,可以有效的分担传感器对网络和云计算的负荷,从而进一步拓展物联网的功能。

综合来讲,存储介质各有各的优点,也各有各的“舒适圈”:

article-body

“新老”器件全面开花,皆有自己擅长的领域,但对于玩家来说,选择受限:传统存储市场已被垄断。

内存行业,美光、三星和SK Hynix在高性能存储领域市占率达100%;高性能计算领域,英特尔、AMD和英伟达的市场占有率也接近100%。高性能芯片代工领域,则被台积电和三星联合垄断。

例如DRAM,因极高的技术和资金壁垒,DRAM领域市场处于高度集中甚至垄断态势。目前,DRAM芯片市场是由三星、SK海力士和美光统治:2018至2020年,三大巨头市场占有率合计在95%左右。

article-body

基于此,初创企业正另辟蹊径:要么基于传统存储介质的存算一体制定特定场景的芯片;要么在存算一体架构下,用新型存储器,打破垄断。

article-body
article-body

由上面两张图可以看到,仅有选择新型存储器RRAM的公司,能够实现大算力,而其余基于传统存储器的基本仅能cover住AIOT、车载模块等低算力场景。

例如亿铸科技,基于RRAM研发“全数字存算一体”大算力芯片,通过减少数据搬运提高能效比,同时利用数字存算一体保证运算精度,能够应用于云端AI推理、边缘计算、数据中心、自动驾驶等大算力场景。

03从2MB的AIOT到512MB的自动驾驶

从上文公司产品应用场景可以看出,存算一体应用广泛,既能装在一块小小的智能门锁,也能应用于1000+TOPS的数据中心。那么,存算一体到底能cover住多少场景?

综合市面上已有的报告以及专家观点,偲睿洞察将应用场景按照算力大小进行划分:

一是端侧小算力场景,例如智能可穿戴设备、智能安防、移动终端、AR\VR等。

article-body

二是大算力场景,例如云计算数据中心、自动驾驶、GPT-4等大模型等。

目前,业内对于大算力的“大”界定是模糊的,而根据下游市场的实际需求,大算力起码是1000TOPS及以上:

以2020年发布的GPT3预训练语言模型为例,采用的是2020年最先进的英伟达A100 GPU,算力是624 TOPS。2023年,随着模型预训练阶段模型迭代,又新增访问阶段井喷的需求,未来模型对于芯片算力的需求起码要破千。

再例如自动驾驶领域,根据财通证券研究所表明,自动驾驶所需单个芯片的算力未来起码1000+TOPS。目前巨头已开始卷上1000+TOPS的SoC,主要用于自动驾驶领域:在2021年4月,英伟达就已经发布了算力为1000TOPS的DRIVE Atlan芯片。到了今年,英伟达直接推出芯片Thor达到2000TOPS。

目前来看,在存算一体架构下,能够真正实现大算力的,仅有亿铸科技一家:

article-body

而在这两大类场景之中,存算一体并非都有着绝对性的优势。针对端侧的可穿戴等小设备,由于AI加速能力占比过小,存算一体的优势并不大:ARM占30%,降噪或ISP占40%,AI加速能力仅占30%。

但云和边缘大算力场景,是存算一体芯片的优势领域。这是因为,大算力场景下,对设备提出了高要求:实现高性能、高计算密度、高算力的同时还需实现低功耗。而这,就大部分仰仗于AI能力。据业内人士表示,存算一体在云和边缘的大算力领域的竞争力影响约占90%。

04未来的路:“第三极”、融合、突破天花板

存算一体正博得学界、产界等各路人马的青睐,基于现有的技术、发展路径以及应用场景并结合业内人士观点,偲睿洞察认为,存算一体将有着以下发展趋势:

1、随着AI技术的加速落地,ChatGPT等大模型对算力的大量需求,将为存算一体技术带来核级推动力。存算一体将成为继CPU、GPU架构之后的算力架构“第三极”

2、在布局存算一体的玩家之中,有创新精神、强劲研发、工程实力的团队及公司将脱颖而出。

这是因为,存算一体芯片在设计层面有较高难度,且没有成熟的方法可供参考:存算一体是计算系统和存储系统的整合设计,比标准模拟IP和存储器IP更复杂,依赖于多次存储器流片而积累的经验,这就需要创始团队有充分的存储器量产经验和技术路线认知。

根据量子位针对存算一体公司多位高管的多次采访,综合来看,团队需具备以下能力:

1)领导层要有清晰的目标:在存储器和计算模式、架构的选择上要有清晰的思路,并且能够准确、快速地带领团队往前走。

2)团队需具有深厚技术背景的人员,对技术方向有精准把握,尤其是在新型存储器技术上的探索。

3)在核心研发、工程团队中,需要在技术的各个层级中配备经验丰富的人才。

3、与多种先进技术融合,实现系统级创新,从而突破算力天花板

在ISSCC 2023,苏妈提出系统级创新概念,即从整体设计的上下游多个环节协同设计来完成芯片性能的提升,并给出使用该概念实现数量级的效率提升案例。

也就是说,若是将存算一体、Chiplet(芯粒)、3D封装等技术同步使用,很有可能带来数量级的效率提升,从而突破性能瓶颈。

目前,国内已有团队进行“系统级创新”实践:作为首发存算一体超异构概念的亿铸科技,提出了自己的技术畅想:

若能把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术(Chiplet)、3D封装等技术结合,将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而抬高AI大算力芯片的发展天花板。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK