HDFS数据流管道二三问

3qMJRzr.png!web

管道中的关键线程

除了客户端，管道中的每一个dn都有两个关键线程：

DataXceiver线程：dn上管道流的主线程，负责 接收上游的packet ，并 继续向下游节点管道写 。（ BlockReceiver#receivePacket() ）。
PacketResponder线程：负责 接收下游节点的ack ，并 继续向上游管道响应 。

作为管道的发起者，也是管道的起点，需要主动写入数据，有三个关键线程：

用户写数据的线程：用户以chunk为粒度向缓冲区写数据，写满一个packet后放入dataQueue。
DataStreamer线程：客户端上管道流的主线程，负责 将packet从dataQueue移动到ackQueue ，并 向下游节点管道写packet 。
PacketResponder线程：负责 接收下游节点的ack ，并 移除ackQueue中的packet 。

结合上图，DataXceiver线程、DataStreamer线程维护 in->mirrorOut 方向的packet数据流，PacketResponder线程维护 mirrorIn->replyOut 方向的ack数据流。

yeqm2iQ.png!web

管道的生命周期分为三个阶段：

三个过程都是管道式的。

管道写 的方式通常称为 pipeline ：

uAraIbu.png!web

为了优化管道写的延迟问题，业界还提出了多种写方案：

如果还使用 管道写 ，可以支持 超步写 。

传统的 管道写 方案相当于TCP中的 停-等协议 ，可仿照TCP，维护滑动窗口支持超步写，快速重传等方案同样适用。

如果网络资源充足，可以改用 星型写 。

V3ueiyJ.png!web

如果在星型写中发生了失败，既可以选择管道写最保守的方案，中断整个写重试，也可以使用更激进的方式，如其中2个DN写成功就继续向成功节点写，而失败的节点可以在后台重试（当然，如果不低于minRep可以暂时忽略）。

显然，上述方案对于慢节点的优化效果非常显著。