

商汤为什么要建 AI 计算中心
source link: http://www.geekpark.net/news/297626
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

商汤为什么要建 AI 计算中心

如何持续做技术产业化和商业化?这是属于商汤的「过程性资产」。
作者 | 凌梓郡
虽然「通用人工智能」到来尚远,但 AI 为各行业提供颠覆性「工具」的能力已经毋庸置疑。提供「工具」的前提是基础设施。
以 2021 年最引人瞩目的科学突破 AlphaFold2 为例,AI 用「暴力计算」的方式,准确预测了蛋白质的三维结构,解决了困扰结构生物学家 50 多年的难题。在这项突破背后,离不开谷歌提供的算力资源:128 块 TPU V3(大约相当于 100-200 个 GPU),运行了数周。
1 月 24 日,落座在上海临港新片区的「商汤科技人工智能计算中心」(AIDC)正式启动运营。其建筑面积 13 万平方米、项目总投资约 56 亿元、一期机柜数量 5000 个。设计算力为每秒 3740 Petaflops(1 Petaflops 为每秒千万亿次浮点运算)。与之相比,目前国内已知最大的人工智能的算力中心是鹏城实验室的鹏城云脑 II,输出 1000 Petaflops 算力。
作为亚洲最大的 AI 软件平台公司,商汤科技很早就开始思考「基础设施」。对于商汤来说,面对的是复杂多样的场景,要源源不断提供各种算法,对基础设施的思考自然更为全面:它不仅仅是一个数据中心,高性能计算平台,也是为更多行业提供 AI 服务的物理基础。
算力仅仅是一个指标的维度。更大的算力,意味着能够处理更大量的数据。但是更关键在于「怎么能让这么大量的数据,进入到同一个算法网络中。」商汤科技联合创始人、副总裁杨帆解释说。

01 通用的 AI 基础设施
商汤对 AI 基础设施的探索从 2018 年就开始了。
2018 年,商汤进行了原型机的预研项目,将 1000 块 GPU 卡连在同一个网络上,加载数据,并进行运算。在同一个网络上运行的难点在于,存储、计算、内部网络传输,这几个子系统之间需要形成紧密的耦合关系。
那时,商汤在没有任何可供参照的案例经验和实验场地条件下,进行项目预研。到了 2020 年 3 月,AIDC 立项启动,7 月在上海临港新片区正式启动建设。仅仅用了 168 天,就完成了从开工建设到结顶的过程,刷新了临港建设的新纪录。杨帆表示,「我自己作为一个程序员出身的软件公司的负责人,头一次去干土建项目,真的是感慨万千。」
目前,商汤的业务主要分为智慧商业、智慧城市、智慧生活,以及智能汽车四个板块。在这个四个板块之下的「底座」,就是「SenseCore 商汤 AI 大装置」。而 AIDC 则是「底座的底座」。
SenseCore 商汤 AI 大装置是软硬一体的超大型通用 AI 基础设施。AIDC 是 AI 大装置的物理承载。在这个物理基础上,运行着深度学习平台、以及超过 22000 个商用模型形成的模型层。
AIDC 的能力体现在「算力真正可以被连接在一个大的网络里,去做共同训练」。
技术亮点上,AIDC 拥有「大规模数据处理及高性能计算能力」。分布式的任务调度系统,可以在成千上万个 GPU 上动态调度数以万计的计算任务。与之匹配,数据的输入/输出(IO)也会面临巨大压力。存储和 IO 系统必须要支持数据的快速随机访问。商汤 AIDC 允许训练任务每秒加载超过两百万张图片,保证训练任务可以全速运行,不必等待数据。
数据是重要的生产资料,基础设施搭建的是一套系统。系统搭建得好,就能让系统内的数据发挥更大价值。
有了 AIDC 作为底层支撑,商汤提供服务的模式也随之优化。在过去,商汤以售卖软件的形式向客户服务。而有了 AIDC 之后,服务模式将更加接近云计算,直接提供端到端的服务。在使用过程中,像系统升级、迭代算法更新,可以在后台自动化实现。

「商汤科技人工智能计算中心」(AIDC)
02 用大模型,降低创新成本
作为 AI 领域的头部企业,商汤一路走来历时 7 年多。杨帆表示,AI 产业经历了五、六年发展,新的趋势是产业链的分化。当 AI 进入不同的场景落地,经过了初期,面对更多分化的场景、中深度的需求。「创新的成本高」,成为了新阶段遇到的问题。其它行业期待以更低的成本获得匹配的算法,以解决问题。
从这个角度理解,AIDC 便是商汤在新阶段,降低创新成本,提高服务能力的「解法」:解决对多任务、多长尾场景覆盖的核心瓶颈问题。
比如,在传统的工业生产线上,客户希望 AI 算法能够检测钢铁的焊缝是不是符合标准。这个行业本来没有与之匹配的智能软件和平台,应用的矛盾就在于,以尽可能小的预算去解决这个问题。这样才是真正实现了降本增效。如果「一个算法本身要花几十万、上百万,算法确实有用,但是太贵了。」
如今,面对这样的需求时,商汤「通过 AIDC 的支撑和加持,能够让算法的生产成本下降到过去的 1/10。」
要实现成本下降,就要充分利用大模型带来的优势。AIDC 支持万亿参数大模型训练,可以衍生出超过 2 万多个商用模型,帮助产业界以极低的下游数据采集成本,快速验证多个新场景。
AI 行业里近年来出现了「大模型」的趋势。「用预训练大模型,去指导小模型的训练,实现跨场景应用方向。」杨帆介绍,AIDC 能够更好地支持大模型,再用大模型指导长尾模型的自动化生产、自动化训练,从而能够提高效率,降低成本。
大模型如何帮助实现长尾的细分场景呢?例如,有地方提出需求,希望算法能够检测到有人落水,然后发出通知,相关人员接到通知后第一时间前往救助。
解决这个长尾场景的难点在于,落水的视频素材本身就不多,样本数据就不多。那么采用大模型的思路,不是单独训练识别落水素材的算法,而是先用各种人类行为的视频素材作为数据。在更广泛的范围收集大量数据,训练出大模型。再用这个模型作为「老师」,训练出一个只会识别落水行为的「学生」。这样,只需要较少的样本数量,就能够得到比较好的识别结果。
使用大模型作为支撑的好处在于:遇到频率低,不常见的应用需求时,基于少量的专有数据,使用小样本达到结果。
03 助力国产芯片产业化
预计到 2024 年,所有服务器全部到位时,AIDC 国产化的硬件比例将超过 50%。

人工智能是软件硬件一体化的产业进程,芯片厂商也需要拥有解决软件适配问题的能力。而商汤搭建的 AI 基础设施的综合角色,可以使其在硬件、软件、应用的产业链上起到重要的沟通的作用。
作为 AI 基础通用设施,本身就包含了硬件层、平台层以及软件系统,同时连接着下游应用厂商。商汤与硬件、芯片厂商做适配,拉通应用侧需求的同时,也帮助节约其研发费用和时间成本。「整体上,加速了他们的市场化进程,帮助降低整体成本。」杨帆说。
除了促进国产芯片的市场化进行,商汤也正在探索从芯片、服务器、训练框架、算法到行业落地的 AI 生态。
2021 世界人工智能大会上,商汤与中国电子技术标准化研究院、中国信息通信研究院、清华大学、复旦大学、上海交通大学及多个行业伙伴共同成立了「人工智能算力产业生态联盟」。整个生态的探索分为前、中、后期。
杨帆介绍,在前期,配合芯片设计和流片的节奏,商汤定期组织深度闭门研讨会,让来自硬件设计、软件设计、计算等不同领域的专家共同交流,「希望尽可能在最开始,通过讨论交流,对于软硬件的边界,形成一个足够标准、通用的接口层的定义。」目的是在之后的软件和硬件迭代中减少无用功,降低成本。
在中期,在国产芯片适配完成,投入 AIDC 运营之后,商汤将扮演评估的角色,与中国电子技术标准化研究院(工业和信息化部电子第四研究院)建立「CESI-SenseTime 人工智能算力及芯片评测联合实验室」。实验室开展人工智能算力和芯片标准制定、人工智能芯片测评工具开发,提供人工智能计算中心、芯片测试验证服务和人才培训等支持。「这个实验室未来将成为一个测评机构,对每一款国产芯片的 AI 服务器,我们会提供一个相对中立的、第三方的,更加权威的评估评测。」
在长期看来,商汤也会把尽可能把优质的 AI 芯片及其服务器,导入整合到自己的解决方案,以及合作伙伴的解决方案中。
从技术创新的原点出发,到最终成为客户价值,中间包括了许多环节。从一个研究前沿算法的团队起家到亚洲最大的 AI 软件公司,历经七年,商汤积累了许多经验。
如何在技术持续创新、高速迭代的环境下,持续做技术产业化和商业化?杨帆总结,「在推动创新产业化这件事上,我们内部有大量的积累和沉淀」,这是属于商汤的「过程性资产」。当将技术创新到产生客户价值的周期不断缩短,甚至短至三四个月,「我觉得这是商汤今天某种意义上,对行业或产业而言,更大的一个核心竞争力所在。」
*头图来源:商汤科技
本文为极客公园原创文章,转载请联系极客君微信 geekparker
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK