50

链网应考虑采用路径模型

 5 years ago
source link: https://www.jinse.com/blockchain/320885.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

区块链互联网系列 (5)

2019年2月26日

在当今世界,出于经济和国家战略的理由,建设各样类型的网络是个优先项目。几乎所有国家都在努力构建各种类型的网络,这其中包括:区块链网络, 移动5G网, 内容/媒体网络, 智能交通网络/车联网 (ITS: Intelligent transportation network; VANET: vehicle area network),物联网/工业物联网 (IoT/IIoT: Industrial IoT),智能城市/建筑/家庭网,医疗互联网 (Internet of medical things),智能电网,自动化工厂网,云网络,等等。这一点所有的国家都广泛认可,为此思科甚至创造了“万物互联”(IoE: Internet of everything) 这个术语。

在这些建设中,都需要投入巨大资金,我们必须提出一个问题:我们期望在完成时得到什么样的网络?或者,我们期望从这些网络获得什么样的质量?

所有这些网络实际上都是一种ICT基础设施,上层(第5层及以上)适合特定的应用,这些设施通常不能被不同应用来共享; 而较低层(第4层及以下)能被不同应用来共享。在上层,关键问题是QoA (Quality of Application; 应用质量); 在低层,关键问题是QoN (Quality of Networks; 网络质量)。

那么网络的质量到底是什么?我们如何度量或表征QoN?

高网络质量是高连接性,高传输量和低时延

衡量QoN最常用的度量包括连接性,传输量,时延,通信错误率,可用性,和能耗。在这些度量中,连接性是最基本的,也是零一度量: 有就有 (一) 没有就没有(零)。在多数情况下,通信速率和通信错误率成反比。因此,传输量与通信错误率不是独立的度量。通常,可用性和能量消耗是被认定为必然的要求。例如,电信设备通常需要99.999%的可用性,而无线设备可能被要求有持续24小时甚至10年电池能耗。因此,在本文中,我们将关注3个度量:连接性,吞吐量 (传输量) 和时延。

我们的选择与国际电联 (ITU) 一致;他们的5G设计目标可归纳为3方面,如图1所示: 三角形的顶部是超高传输量 (1-20 Gbps),而右侧角是超低时延 (<1ms),而左侧角是大规模连通性 (massive connectivity)。

Z3ErU3i.jpg!web

图1 国际电联的5G网络质量

在这3大度量中,连通性在实践中通常是自动的,或只需要最少量的工作。更难实现的是高传输量和低时延。对大多数网络而言,高传输量和低时延通常是昂贵的。有些应用需要高传输量却不需要低时延,而有些应用需要低时延却不需要高传输量。虽然不同应用对传输量和时延的要求有不同,但从网络设计的角度来看,为了最广泛的应用,高QoN网络必须同是具备高传输量和低时延。

在国际电联文件中,国际电联列出了大量高频带和低时延的用例。例如,自动驾驶汽车有以下3个要求 [1]:

  • 速度高达500公里/小时(310英里/小时)的超低时延,1毫秒

  • 高峰值数据速率为20 Gbps,速度高达500 km / h(310 mph)

  • 极高密度,最多可连接1,000,000辆汽车和设备

在其他应用领域,如财务区块链,高传输量和低时延也是极端重要或关键性的。许多金融交易都有时间限制,例如在交易的时候,清算的时候,银行结算的时候都有时间限制。现在金融系统清算应该在一天以内结束,固然有些金融系统当场完成结算, 但是许多系统都在交易后才请结算,目的在于可以回滚,可以让监管单位有时间查证资金来源。数字代币的系统是当时清结算,但是交易可能要一个小时才能完成。比起现在金融系统,交易可以是一秒内完成,但是清结算必须等监管单位和银行同意。因为交易所、证券商、监管单位、银行、清算所、注册中心都是不同单位,彼此通讯都是用网络。所以网络路由时间控制 (低时延)非常重要。许多金融机构都用专门网络来解决这问题。但是因为机构太多,这个方案不能适应使用机构,必须使用互联网或是将来的区块链互联网。

两种互联网:路径或链接模式

要设计一个具有高QoN的未来互联网,我们必须面对一个基本问题,就是:这新的联网应该基于路径 (Path) 模型还是基于链接 (link) 模型?

今天的互联网是基于数据报datagram模型(或称为链接link模型)构建的,而链接link模型是更大的端到端 (end-to-end) 模型的一部分。在本文中,我们将不区分数据包packet 和数据报datagram。在过去几篇文章[2-4]中,我们讨论了端到端原则的优点和缺点; 在本文中,我们比较数据报模型和路径模型。

当初互联网的设计者认为,开放的,独立于应用的分布式结构最适合高性能,高可扩展性,和易配置性。他们认为由於每个节点能对每个数据包做出决策,网络能得着可靠性和可扩展性;相反的,路径模型,又叫虚拟电路 (VC: virtual circuit) 模型却不能。当数据报模型被提出时,路径模型已在传统电话公司中使用了50年。然而在1990年代后期路径模型被数据报模型所取代。

过了20多年后来看,很明显的,端到端数据报模型的所预测的好处都已实现。然而,他们却没有告诉我们这个模型的隐藏缺点。事实上在互联网蓬勃发展后不久,这些缺点就迫使一些实际系统不遵守端到端模式:比如NAT(网络地址转换)就违背了端到端原则。各种代理(例如HTTP代理,TCP代理等)的部署也违反端到端原则。

最初的互联网的设计者并不认为QoN很重要。出于这个原因,他们声称互联网的设计是基于尽力而为 (best effort) 模式。这种设计通常会导致最差的性能,因为互联网的设计并没有考虑任何措施来改善QoN。他们专注于可扩展性scalability和稳健性robustness,而这两个属性旨在实现连接性connectivity。但这只是最基本的QoN,如果未来的互联网可以提供高级QoN,我们必须重新考虑链接模型的替代方案,即路径模型。原因是在链接模型接管互联网之前,路径模型已经为传统电话公司提供了QoN 50年。

可控性和QoN可扩展性

数据报模型有一个根本的弱点,即无法对路径上的流量分布作有效控制。在数据报模型下,路由是根据下一个链路来进行的。设置路由表非常容易:只需要查看目标节点,准备一个链接以转发。这就是路由器的基本操作。然而,这种简单的程序却缺乏对数据包路线的有效控制。这样的设计就像没有做足够的事前准备,后来却遇到麻烦。

这是因为在数据报模型中,没有路径的概念。要改善路径上的流量状况,唯一的方法是改善路径中所有链接的流量分配。但是,路径中的每个链接都与其他流量共享,并且路径会实时动态地更改。因此,在数据报模型中,实际上不可能使单个路径改善其流量分配而不受其他流量影响,或影响其他流量。

由于没有有效的路径控制,为单一应用程序提供高QoN是不可能的。要解决这问题,就必须使用昂贵的方案,如专用路径(与其他流量隔离)或过度配置(所有分享路径的流量也享受到好处)。但是一旦采用昂贵的方案,互联网(共享)的好处就会基本上消失了。

相比之下,VC网络中的流量容易控制。控制VC的流量就间接得控制链路流量。通过整形VC流量,我们可以轻松地在所有链路和所有路径中做流量整形。

在路径模型中扩展QoN相对之下容易很多。在VC网络中后,添加QoN或扩展每个应用程序的QoN非常简单:只要在路径中的所有链路中提供足够的带宽,路径QoN将相应地上升。因此为每个路径或每个用户或每个应用程序扩展QoN所需的设置很容易完成。主要原因是VC模型允许任何硬件或软件的改进在很大程度上仅限于特定路径中的流量。

错误传播和网络难题

如今,网络工程已成为一种黑技术:常见的网络问题中总有一些出奇地困难,而只有一小部分能干的网络工程师可以解决。主要原因就是植根于数据报模型。数据报模型的一个问题是错误传播。当路由表中存在错误时,该路由器的所处理的数据包都可能受到影响。在数据报模型中,没有路径概念,路由器盲目地根据链接转发数据包,而转发的选择独立於数据包的路径。很有可能在路由器处理不同路径的数据包时,导致数据包脱离预期路径,以致於数据包无法到达目的地或前往不该去的节点。这种现象称为数据包泄漏 (packet leaking/leakage)。在笔者的职业生涯中,我们常需要设计隔离网络,以确保数据包不会进入非预期区域。

问题来自於不同路径的所有数据包都跟据路由表指定的链路;如果网络中的所有路由表都正确时,数据包将被正确地传输到正确的目的地。但是,没有人能做到这一点,即使最好的网络工程师也无法完全保证;随着新应用程序和新配置不断添加到系统中,实际上不可能确保将所有数据包都能送到正确的目的地。

因此,确保路由表的正确性事实上不可能。这就是为什么路由网络成为黑技术的根本原因。笔者在经验中,因为路由或网络引起的额外时间大约是所有工程时间的20%甚至40%。这是一个巨大的浪费,如果所有科技公司都可以节省20%-40%的工程开发时间,效益将是巨大的。

相反的,VC配置中的错误不容易传播。原因是每个VC在正确设置时将没有循环并且确实从原点到目的地。如果出现错误,则错误仅限于VC中的数据包,不会影响其他数据包。这样,VC配置表中的错误不会传播。调试 (debug) VC配置比调试IP路由简单得多,因为VC中的每个下一个节点,网络工程师都清晰可见。一旦VC大规模部署,IP路由中的难题将大大减少。科技公司的工程开发节省将是巨大的。

路径计算的代价

对于每个应用程序,总有一组接收节点和一组发送节点, 因而路径总是很重要。数据报推动者认为,在所有路径中选择一个最优(在某种意义上,最短的)路径在计算上是昂贵的。然而,选择最优路径在计算上与选择适最优下一个链路同样地昂贵。许多人认为,为了维护优化路由,一个庞大的网络系统要维持数量庞大的路径数量。他们认为在每个路由器上,可供选择链路的数量反而是有限的。事实证明这是一个误区。当路由最优化时,每个OD(origin 起点 和 destination目的地)对通常不超过2个路径[6]。从计算代价的角度来看,路径模式式实上优于链接模式[6]。

路由稳定性

在未来的区块链互联网,另一个重要的问题是可靠性。特别是监管机构的核心价值是网络基础设施的稳定性和安全性。在这方面,数据报模型是不足的,因为重要流量所经过的路径是非确定和动态的。相反,在VC模型中,路径只能从几条固定路径中挑选,并且路径流量分布的动态变化处于准静态 (quasi-static state)。从控制和管理的角度来看,VC网络更易于管理,因此更安全,更稳定。许多顶级金融机构,包括许多中央银行,DTCC和SWIFT坚持PFMI规定的严格要求。他们要求的不是速度,而是合规性,可靠性(稳定性)、安全性,成本效益、操作性,和可优化性。

路径设置的成本

与数据报模型相比,在路径模型中,有必要建立虚拟电路。但是,设置(或配置)虚拟电路的成本不是太高。首先,设置是一次性事件,一旦设置了VC(虚拟电路),就可以永久使用(一直到路径有设备更改)。设置的成本可以在VC的整个生命周期内分摊,从这个角度来看,成本很低。

事实上,设置VC是成熟的技术:MPLS (Multi-Protocol Label-Switching),ATM (Asynchronous Transfer Mode),或FR (Frame Relay) 网络中都要设置VC。如今,在许多运营商的网络(例如移动运营商,ISP运营商,CDN运营商等)中,由于对QoN的需求,已经使用IP路由配置了许多固定路径(相当于VC)。所以,配置虚拟电路仅仅是把现有的计术采用更大规模的应用。

相比之下,设置路由表的成本很高。如前所述,很难确保一个节点上的一个路由表中的错误不会对其它数据包的正确路径产生不利影响。当存在数据包泄漏,数据包循环或数据包未达到预期的目的地时,调试路由表的成本将远远高于调试VC配置表的成本。

低时延的成本

低延迟是许多重要应用的关键属性:例如,金融市场交易,实时监控,车联网,工业互联网,和触摸互联网。其中,自动驾驶汽车,自动化工厂,远程医疗等一些应用需要极低的延迟。今天,大多数内容分发网络 (CDN)运营商花费了大量资金,以确保内容到用户之间的延迟小于5毫秒。部署5G时,一些运营商的目标是使内容到用户的延迟小于5毫秒甚至1毫秒。为了实现如此艰难的目标,运营商则依靠移动边缘计算(MEC: mobile edge computing)来最小化延迟。

然而,这种解决方案非常昂贵。为了减少延迟,运营商将内容移到边缘,从而大大增加了服务器和存储的成本。为了降低成本,他们又依靠云计算来分担计算和存储成本。但是,随着云计算用于共享资源的虚拟化,当硬件机器从一个软件切换到另一个软件时,延迟会增加。当延迟增加时,TCP吞吐量也会下降,这将部分地抵消MEC的效益。因此,这种解决方案不经济。

但是有一个基于VC模型的更好的解决方案。劳伦斯罗伯茨(Lawrence Roberts)是四位互联网创始人之一。他是少数几个强烈主张VC模型而不是数据报模型的人。他在网站上保留了20年不变的网页:“显式流量控制能改进TCP的100倍” [5]。他的基本论点是基于VC模型,通过使用来自网络内的显式反馈信息, TCP可以被大大地改进。他的方法与控制理论的预测一致:根据控制理论,当系统具有可控性和可观察性时,它可以大大优化,且具有稳定性和稳健性。

过去他预测TCP可以改进100倍,今天这预测已经被一些公司如FileCatalyst,Aspera(IBM)等超过。新记录是1000倍,见[4]。他的论点可以通过下图来理解:

FzaU7nA.jpg!web

图2: TCP传输量可以提高100倍以上

基本上,TCP在可控性和可观察性方面都存在缺陷。使用VC模型,新的区块链互联网应该比旧(现有)互联网改进至少10-100倍,甚至1000倍。此图是另一个证据,表明控制时间和时间尺度对于优化互联网性能至关重要,正如我们在前一篇文章[4]中所论述的那样。

如果在VC模型下使用优化的TCP,则边缘计算 (edge computing)的需求将大量消失。这是因为用户会发现TCP吞吐量不会根据往返时间 (RTT) 而下降。当此目的实现时,路径中添加的延迟不会影响吞吐量,只会影响初始延迟。这样,对以吞吐量为中心的应用,无需将内容移至边缘。这将大大地降低为将内容带给用户的成本。

比较总结

下表显示了数据报/链接模型与虚拟电路/路径模型之间的权衡差异。

EVjiQnf.jpg!web

参考文献

[1].Brice Murara, “IMT-2020 network high level requirements, how African countries can cope,” 2017年4月

https://www.itu.int/en/ITU-T/Workshops-and-Seminars/standardization/20170402/Documents/S2_4.%20Presentation_IMT%202020%20Requirements-how%20developing%20countries%20can%20cope.pdf

[2].蔡维德 & Kevin Tsai,“TCP 端到端设计又旧又多毛病:区块链互联网系列 (1)”

https://mp.weixin.qq.com/s/AyDG063nq7FKy9MEKZOxfg

[3].蔡维德 & Kevin Tsai,“区块链互联网需要新协议:区块链互联网系列 (2)”

https://mp.weixin.qq.com/s/vvA4u7LiIMfkzCTI04VSzw

[4].蔡维德 & Kevin Tsai,“链网会是复杂网络,掌控时间将是关键技术:区块链互联网系列 (4)”

https://mp.weixin.qq.com/s/slRinMxNnhdW5BTRBLhaFg

[5].Lawrence Roberts, “Explicit Rate Flow Control, A Detailed Examination of the Benefits of Explicit Rate Flow Control.”

http://www.packet.cc/files/Ex-Rate-Fl-Con.htm

[6].D.P. Bertsekas, B. Gendron, and W.K. Tsai, “Implementation of an Optimal Network Flow Algorithm Based on Gradient Projection and a Path Flow Formulation," MIT LIDS report p-1364, Feb. 1984.

https://www.researchgate.net/profile/Wei_Tsai/publications

作者:

蔡维德:北航数字社会与区块链实验室,天德科技 ,国家大数据(贵州)综合试验区区块链互联网实验室, 天民(青岛)国际沙盒研究院, 赛迪(青岛)区块链研究院

Kevin Tsai :University of California at Irvine 名誉教授,美国麻省理工学院本硕博,区块链网络专家


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK