145

VTA:一个开放、高度可定制化的深度学习加速器平台

 5 years ago
source link: http://www.infoq.com/cn/articles/vta-release-announcement?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

导读:硬件加速为深度学习锦上添花,让高效的深度学习无处不在。随着硬件加速器出现在数据中心和边缘设备中,硬件专业化技术在深度学习技术栈中扮演着重要的角色。

今天,陈天奇团队推出Versatile Tensor Accelerator(VTA,发音为vita),这是一种开放、通用、可定制的深度学习加速器。VTA是一种可编程加速器,提供了RISC风格的编程抽象来描述张量级的操作。VTA的设计体现了主流深度学习加速器最突出和最常见的一些特征,比如张量操作、DMA加载/存储和显式的计算/内存调节。

正文:

VTA不仅仅是一个独立的加速器,它其实是一个端到端的解决方案,包含了驱动程序、JIT运行时以及基于TVM的优化编译器栈。当前版本包含了一个行为硬件模拟器,以及用于在低成本FPGA硬件上部署VTA(方便进行快速的原型设计)的基础设施。我们通过使用可定制的开源深度学习硬件加速器对TVM栈进行了扩展,提供了一个从高级深度学习框架到实际硬件设计和实现的端到端深度学习栈,形成了一个真正的端到端开源软硬件栈。

 40-1531826772703.png 

VTA和TVM栈共同构成了以加速器为中心的、端到端的深度学习系统蓝图:

  • 为硬件、编译器和系统研究人员提供开放的深度学习系统栈,以便集成优化和协同设计技术。
  • 降低机器学习从业者的门槛,让他们能够体验需要专门硬件支持的新型网络架构、操作和数据表示。

研究人员的应用场景

我们将重点介绍VTA与完整的TVM软件栈相结合将给硬件、编译器和深度学习研究带来新的机会。

硬件设计师和计算机架构师

随着ASIC的推陈出新,在新型硬件之上提供完整且可用的软件栈对于在学术和商业领域取得成功来说都至关重要。VTA为硬件加速器提供了TVM软件栈参考实现。我们希望能够让硬件设计人员快速构建和部署优化的深度学习库,并将它们用在TensorFlow或PyTorch等高级框架中。软件支持对于在加速系统中执行全系统评估以了解系统的限制和性能瓶颈来说至关重要。通过将FPGA用作硬件部署后端,我们为硬件设计原型的快速迭代提供了一个完整的解决方案。最后,我们希望能够将VTA发展成为一系列硬件设计,最终形成一个开放的可定制化硬件加速器生态系统。

另外,VTA是第一批软硬件可重现ACM工件之一,可以作为可重复深度学习架构研究的模板。VTA工件可使用在ReQuEST 2018上露过脸的CK部署。

优化编译器研究人员

已经出现的最新中间表示和优化编译器(如TVM)用于更好地利用深度学习工作负载的特点。作为TVM的补充,VTA提供了以加速器为中心的优化和底层代码生成能力。我们开源的深度学习编译器栈向LLVM看齐,通过社区一起改进以加速器为中心的编译器支持。编译器栈的可扩展性,以及修改硬件后端架构和编程接口的能力,将为深度学习带来令人兴奋的软硬件协同设计的可能性。

深度学习研究人员

透明且可定制的软件和硬件栈帮助深度学习研究人员提出新颖的神经网络操作和数据表示,同时能够对端到端系统上的优化进行全面评估。二值化等技术目前仅限于CPU和GPU,除非有专门的工程资源可用于生成可评估这种技术节能潜力的FPGA或ASIC。VTA提供了可部署的参考硬件栈,从而为没有太多硬件设计背景的机器学习从业者降低了硬件定制化的门槛。

技术细节

技术栈概览

VTA深度学习加速器和TVM栈可以弥合专注于提升生产效率的深度学习框架和关注性能的硬件基板(如FPGA)之间的差距。

  • NNVM是图形级的优化器,提供了图形级的中间表示(IR),作为不同深度学习框架之间的通用语言,以便更好地利用图形级优化,例如操作数融合。NNVM IR还用于指定数据布局和数据格式约束:例如,张量平铺,以及用于超低精度计算的位组装。
  • TVM是张量级的优化器,基于Halide DSL和调度原语,提供了一个优化编译器,为跨硬件后端的深度学习带来了性能可移植性。TVM带来了针对专用硬件加速器的新型调度原语,例如张量化,张量化将计算降到专门的张量到张量硬件指令级别。另外,它还提供了用于显式内存管理的调度原语和降级规则,以便最大限度地提高硬件加速器的资源利用率。
  • VTA运行时进行VTA二进制文件(指令流和微内核代码)的JIT编译,管理共享内存,并执行同步,将执行移交给VTA。VTA运行时提供了一组在TVM看来很通用的API,隐藏了特定于平台的簿记任务的复杂性。它公开了一组可由TVM模块调用的C++ API,简化了在未来加入其他硬件加速器的过程,因为可以不需要大幅修改上层的TVM。
  • VTA的两级ISA提供了一个高级的CISC ISA,用于描述可变延迟操作,如DMA加载或深度学习操作符,以及一个低级的固定延迟RISC ISA,用于描述低级的矩阵到矩阵的操作。这种两级ISA让代码变得更紧凑和更具表述性。
  • 最后,VTA的微架构提供了灵活的深度学习硬件设计规范,可以被方便地编译到其他FPGA平台上。

VTA硬件设计概览

Vanilla Tensor Accelerator(VTA)是围绕GEMM核心而构建的通用深度学习加速器,可进行高吞吐量的密集矩阵乘法操作。它的设计灵感来自主流的深度学习加速器,就像谷歌的TPU加速器一样。它的设计采用了解耦的访问-执行机制来隐藏内存访问延迟,并最大化计算资源的利用率。VTA可以作为深度学习加速器的设计模板,为编译器栈提供了一个干净的张量计算抽象。

 6891-1531826770950.png 

上图是VTA硬件的高级概览。VTA由四个模块组成,这四个模块通过FIFO队列和单写入器/单读取器SRAM内存块进行通信,以实现任务级的管道并行。计算模块使用GEMM核心执行密集线性代数计算,并使用张量ALU执行一般性计算。它直接操作一个寄存器文件,而不是进行标量值的存储,它存储的是等级1或2的张量。微操作高速缓存存储的是底层代码,这些代码通过执行一系列操作来修改寄存器文件。

VTA硬件设计模板为用户提供了模块化,可选择修改硬件数据类型、内存架构、GEMM核心维度、硬件操作符和管道阶段。将多个VTA变体暴露给编译器栈有助于编译器的开发,因为我们可以针对多个硬件加速器测试TVM的能力。

使用VTA模拟器和Pynq FPGA板进行VTA原型设计

VTA为用户提供了两种方式来体验硬件加速和以加速器为中心的编译器优化。第一种不需要特殊的硬件,直接在VTA的行为模拟器上运行深度学习工作负载。开发人员可以很方便地使用这个模拟器后端。第二种方法需要使用现成的低成本FPGA开发板——Pynq板,它提供了可重配置的FPGA构造和ARM SoC。

 5372-1531826771995.png 

VTA借助RPC服务器接口,为Pynq平台提供了简单的VTA硬件设计和TVM工作负载的编译和部署流程。RPC服务器负责处理FPGA重配置任务和TVM模块调用。VTA运行时系统运行在Pynq嵌入式系统的ARM CPU上,并在FPGA硬件上动态生成VTA二进制文件。这个完整的解决方案可实现在低成本FPGA上进行开箱即用的原型设计,并提供了一个交互式的Python环境,为用户隐藏了大部分FPGA设计方面的复杂性和麻烦。

对于熟悉硬件和FPGA的程序员,我们公开了使用HLS C表示的VTA设计,并提供了基于Xilinx工具链构建的脚本,用以将VTA编译成FPGA比特流。我们目前正在构建一个VTA变体的仓库,这样用户就可以针对不同的深度学习工作负载使用不同的变体,而无需经历耗时的FPGA编译过程。

性能评估

VTA还处于早期开发阶段,我们期待后续会有更多的性能改进和优化。截至目前,我们提供了基于低成本Pynq板的端到端性能评估,Pynq板采用了过时的28nm FPGA构造。虽然该平台主要用于原型设计(FPGA 2012无法与现代ASIC匹敌),但我们正在致力于将VTA移植到更新的高性能FPGA平台,以提供更具竞争力的性能。

ResNet-18上的资源利用率

用于评估硬件资源利用率的常用方法是顶线图(roofline diagram):在给定硬件设计的情况下,不同的工作负载在计算和内存资源方面的利用率。下面的顶线图显示了在ResNet-18推断基准不同的卷积层上实现的吞吐量。每层具有不同的算术强度,即计算到数据移动比率。在左半部分,卷积层受限于带宽,而在右半部分,它们受限于计算。

 4293-1531826772383.png 

设计硬件架构和编译器栈的目标是让每种工作负载尽可能地接近目标硬件的顶线。顶线图显示了硬件和编译器协同工作以最大限度地利用可用硬件资源的效果。顶线图展示的是延迟隐藏技术,需要在硬件级别进行显式依赖跟踪,需要编译器支持分区工作,需要在代码生成期间在指令流中显式插入依赖。其结果是带来了更高的计算和内存资源的总体利用率。

端到端ResNet-18评估

 3664-1531826771669.png 

为VTA构建完整的编译器栈的好处是能够运行端到端工作负载。这在硬件加速器领域是非常具有

吸引力的,因为我们需要了解性能瓶颈,以及获得更高性能的安达尔局限性。上面的条形图显示了在Pynq板的ARM Cortex A9 SoC上,将ResNet卷积层装载到基于FPGA的VTA上的推理性能以及没有装载到VTA上的推理性能。结果很明显,VTA实现了它的目标,减少了在CPU上执行卷积所需的时间(深蓝色)。然而,很明显的是,其他操作也需要装载,因为它们现在成了新的瓶颈所在。对于希望了解系统如何影响端到端性能的系统设计人员而言,这种高级可见性至关重要。

英文原文: https://tvm.ai/2018/07/12/vta-release-announcement.html

感谢陈利鑫对本文的审校。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK