0

KCORES HomeLab 指南 篇一:N卡网速快!Mellanox 100GbE 交换机 SN2700 开箱简测

 9 months ago
source link: https://post.smzdm.com/p/amx6z72v/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

KCORES HomeLab 指南 篇一:N卡网速快!Mellanox 100GbE 交换机 SN2700 开箱简测

2022-02-25 16:21:44 36点赞 129收藏 25评论

没看错,不是10G万兆,也不是40G,而是一步到位100GbE!!!

现用的 Mellanox SX6036 因为一些众所周知的原因价格起飞;加上 25GbE 新一代网卡越来越便宜,甚至有倒挂 intel 信仰 82599 的趋势;又正好遇到的便宜的SN2700整机,于是卖掉 SX6036 咬牙加点钱上了。

如果只是为了凑个 100GbE,Mellanox 显然不是最好的选择,海鲜市场上有的是价格只要一半不到的机型。但是 Mellanox 黑科技般的节能技术和 x86 控制面,显然提供了足够的实用性和可玩性。

  • 功耗低至 50W,甚至省过万兆交换机

  • 至多拆分 64 口 25GbE

  • x86 控制面,虚拟机、Docker应有尽有

  • 手动调速,低于 2U 服务器平均噪声

  • 花式 EEPROM 滴血认亲

和大多数交换机一样,Mellanox SN2700 也是标准的 1U 尺寸。但是不再像 SX6036 一样提供半长选项,而是只有 686mm 的全长可选。这与大多数机架服务器相当,可以避免上架后交换机短一大截插不上电源的尴尬局面。
至于是怎么拉到这么长的,等会儿开盖就知道。

前面板左侧是没啥用的状态指示灯,右侧是型号标签。剩下的地方除了 36 个 QSFP28 100GbE 网口就是散热镂空。如果真的能插满 36 个 100GbE 端口,光模块的发热也不容小觑。

QSFP28 的 Q 是 Quad 的缩写,可以认为 QSFP28 100GbE 接口本质上就是 4 个 SFP28 25GbE 粘起来的。能粘就能拆,虽然 100GbE 网卡还很贵,但 25GbE 网卡已经降到比小白喜欢的 intel 祖传蓝色信仰 82599 10GbE 网卡还便宜了。

背面是散热和电源以及控制接口。显然,双网口,可以做软路由。

风扇模块是台达的 GFC0412DS,两只 4028 风扇共轴反桨串联,Tu-95同款,精苏狂喜。子板上还有一片 ROM,只为用来存序列号滴血认亲,实在是丧心病狂。
系统里可以手动调速,压到最低转速后不能说极致静音吧,至少不会比其它 2U 服务器吵,不至于穿墙暴击。要想进一步静音就需要自己改风扇和转速起欺骗了。

另外 Mellanox 的交换机都有“前进后出”和“后进前出”两种风道选项,橙色把手是“前进后出”,和常见服务器散热方向相同。

原装电源是两只 460W 金牌废物,是整机最大的噪音来源,转得比上面四只风扇快两倍。
好在接口完全符合 intel CRPS 标准,直接拿一条铂金效率的浪潮拆机 550W 换上完事,这个型号可以在 55W 负载时就达到 89% 的效率,可以说是非常地球卫士了。
坏在电源里也有认亲识别,非原装电源会警告电源错误,等有空了研究一下怎么骗过去。

最炫酷的是,SN2700 的模块化风扇和电源,在拔出后都有一个弹簧盖子将洞挡上。
一方面省去了自己 3D 打印做堵头的麻烦,另一方面这个盖子的手感是真的爽,可以玩一天。

大概是设计上不需要用户拆机,掀开 SN2700 上盖需要拧 10 多颗螺丝。然后就会看到充满了高性能空气的内部。
为了和常见机架服务器 700mm 左右的长度匹配强行拉长的机身,中间仅剩的三组线分别是供电、PCIe x4数据连接和控制排线。

32口 100GbE 的 L2 交换全部在前部 ASIC 板上进行,只有 L3 转发和设置控制才到后面的控制板上处理。

可能和常见交换交换机最大的不同就是--x86控制面

SN2700 的后侧本质上就是一块 PC 主板,Ivy Bridge 双核 1.4GHz 的 Celeron 1047UE 就在黑色铝块下面,性能差到连现在的低功耗软路由主板都打不过。
但是比起各种 MIPS、ARM、PowerPC 的传统交换机来说已经是飞跃了,官方系统里甚至内置了虚拟机和 Docker 服务。

而且标准的 BIOS 完全不拦着装 Windows、ESXi或者爱快、Openwrt等等--只要搞得定 100GbE ASIC 交换的驱动

原厂内存是单条宇瞻 DDR3 1600 8GB 纯 ECC 内存,系统盘 StorFly 300XE 16GB。
还可以看到内存、mSATA、PCIe插槽都大片空焊,有空了买几个座子来补上去试试能不能用。

不得不吐槽一下这块所谓企业级 mSATA 系统盘,揭开贴纸就是 DIY SSD 最熟悉的 SM2246EN,配 32GB 东芝 TLC 颗粒开 16GB 可用容量。

作为标准的 x86 主板,BIOS当然是少不了,插上串口 9600 狂按 Ctrl+B 就能进去。
Mellanox 似乎是往里面直接塞了个 AMI 公版,没有隐藏任何设置,于是在企业级设备里甚至可以找到睿频功耗、内存超频、XMP 等选项。距离“电竞”交换机也就只差一条RGB灯了。

有一点比较阴间的地方是,交换机里不用纽扣电池而是超级电容来保持 RTC 供电,只要断电时间稍长,BIOS就会自己恢复默认。

官方推荐的用法是 ONIE 启动环境配 Mellanox Onyx 或者 OCP SONiC 系统。前者就是官方系统--带炫酷 Web 界面的那个。
默认全部端口均为强制 100GbE 模式,玩不起全 100GbE 还得挨个改自动协商,不如直接 ssh 上打命令批量设置。

既然是 x86 平台,那就没什么不能干的--比如装个 OpenWRT。
不过由于缺少交换 ASIC 驱动,只能使用控制板上的两个千兆集成网卡,这下真成软路由了。

唯一的缺点大概是,BIOS默认屏蔽集成显卡,想要流畅运行 LOL 就有点困难了。

原装 80PLUS 金牌电源既吵又热,效率极低。直接换成了浪潮 550W 80PLUS 铂金电源测试。开机稳定后读数稳定在 50W ~ 55W。
作为全 100GbE 交换机,仅比 Broadcom 方案的 L2+ 多口千兆交换机略高,远低于 Broadcom 方案的全 10GbE 交换机,非常绿色节能。

官方参数中典型功耗为 130W,不过我这点东西是很难把背板带宽 6.4Tb/s 的交换机淦到典型负载了。

由于暂时还没有平价的 100GbE 网卡,搭配 Mellanox ConnectX-3 芯片的 544FLR-QSFP 40/56Gbps 网卡,当初买这玩意只花了80,Wangrb逆向的HPE专用接口定义,我魔改了一张低成本转接卡插上标准 PCIe。

FLR转接卡的开源设计文件可以在KCORES github仓库找到

搭配 Mellanox 的交换机和认证的 FDR 光纤线,可以自动协商出 56Gbps 速度。比标准 40Gbps 多出来的 16Gbps 算是 Mellanox 原厂套餐的额外福利

  • 远端为至强铂金 P-8124 18C36T 3GHz 平台插了 3 条三星 PM983 960G

  • 本机为 R7 5800X,已经把显卡踢到了 PCH PCIe 插槽上,直连插槽给网卡使用

开启 RoCE v1 使用 nd_send_bw 测试 RDMA 速度为 49Gbps 左右,距离理论值差距略大,似乎CPU已经瓶颈。

单盘 PM983 SMB 共享测速。

由于还没有任何优化,看看连续读写就好

3 盘 PM983 RAID0 SMB 共享测速
可能由于软阵列影响或优化参数未调节,导致写入速度异常偏低。
单看连续写入的 5.8GB/s 达到了理论值 56Gbps 的 80% 以上,还算不错。

实际上到了 40Gbps 以后,软件瓶颈就开始大于硬件瓶颈了。跑分都得换着花样的尝试各种冷门优化、奇特技巧才能接近理论值。

如果关掉 RDMA,就能看到 CPU 被远端 SSD 跑分直接榨干的奇观

如果只是做NAS的话,100GbE确实有点大材小用,56G网络已经足够跑在普通SSD读写速度之上。

但是也没人规定网络只能共享储存啊,比如把显卡像硬盘一样共享出去N卡网速快!Mellanox 100GbE 交换机 SN2700 开箱简测 ,不然NVIDIA收购Mellanox图的啥

等我先把全闪 nvme NAS 的坑踩差不多了大概再更新下一期吧……

© KCORES AlphaArea 保留所有权利

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

the-end.png

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK