1

阿里云为何看不上内核TCP了?

 9 months ago
source link: http://enterprise.pconline.com.cn/1651/16518484.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

阿里云为何看不上内核TCP了?

16849977945776010.jpg Asgardia 责任编辑:wangkeyue 发布于:2023-08-24 08:37 PConline原创

前不久,阿里云宣布了一个广泛部署在阿里云的自研用户空间TCP堆栈LUNA,并发表论文《Deploying User-space TCP at Cloud Scale with LUNA》。该论文被USENIX年度技术大会收录。

阿里云为何看不上内核TCP了?

如今,TCP仍然是许多现代大型数据中心的主力协议。然而,由于硬件(例如,100Gbps链路速度网络)和软件(例如,Intel DPDK支持)的进步,对性能的要求越来越高,使得基于内核的TCP堆栈不再是一个有利的选择。在过去的十年中,多方提出了各种用户栈TCP栈,这些栈提供了“一切如常”的TCP支持,并显著提高了性能。但阿里云认为,这些既有解决方案在实际应用中可能不能很好地发挥作用,尤其是在进行大规模部署时。

阿里云介绍,首先,这些栈通常使用单独的线程进行应用程序逻辑和TCP处理(例如,IX和mTCP),从而导致高通信开销并影响阿里云的服务水平目标(Service Level Objectives, SLO)。其次,这些解决方案通常遵循基于副本的内存模型(例如mTCP和VPP),这加剧了内存带宽瓶颈。第三,现有的解决方案需要网卡的专有所有权,从而阻止了对内核流量的遗留支持。

对此,阿里云存储团队自主研发了名为“Luna”的TCP用户态网络。通过核间资源不共享、数据链路分层融合、全栈零拷贝,Luna极大提高了存储性能、降低存储延迟,可在超大规模的前提下承载不同的应用负载, 覆盖低延迟、高吞吐、高并发等多种复杂场景。

在相同负载下,Luna的延迟比内核TCP降低了55% 以上,吞吐提升了100% ,尤其在短连接场景下,每秒请求数提升了3.5倍。

在多项创新技术的加持下,阿里云将云盘的IOPS提升了3倍,并不断推出满足用户不同需求的存储产品,包括性能和容量解耦、性能秒级弹性突发的云盘新规格ESSD AutoPL,以及延迟低至40微秒、IOPS高达300万的ESSD PL-X。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK