8

分布式: 2PC理论

 2 years ago
source link: https://mingzhi198.github.io/p/%E5%88%86%E5%B8%83%E5%BC%8F-2pc%E7%90%86%E8%AE%BA/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Statement

  • This article is my study notes about distributed systems.
  • Please refer to the original work for more details and indicate the source for reprinting.

在分布式系统中发起一个事务,该事务涉及多个不同节点,那么为了保证事务 ACID 特性,就需要引入一个协调者来统一调度事务涉及的多个节点,被调度的节点称为事务参与者。由此衍生出 2PC 和 3PC 协议。

2. 2PC(两阶段提交,Two-Phase Commit)

分为两个阶段:Prepare 和 Commit

2.1 Prepare:提交事务请求

2pc

  • 询问
    协调者向所有参与者发送事务请求,询问是否可执行事务操作,然后等待各个参与者的响应。

  • 执行
    各个参与者接收到协调者事务请求后,执行事务操作(例如更新一个关系型数据库表中的记录),并将 Undo 和 Redo 信息记录事务日志中。

  • 响应
    如果参与者成功执行了事务并写入 Undo 和 Redo 信息,则向协调者返回 YES 响应,否则返回 NO 响应。当然,参与者也可能宕机,从而不会返回响应。

2.2 Commit:执行事务提交

执行事务提交分为两种情况,正常提交和回退。

2.2.1 正常提交事务

2pc_commit

  • commit 请求
    协调者向所有参与者发送 Commit 请求。

  • 事务提交
    参与者收到 Commit 请求后,执行事务提交,提交完成后释放事务执行期占用的所有资源。

*反馈结果
参与者执行事务提交后向协调者发送 Ack 响应。

  • 完成事务
    接收到所有参与者的 Ack 响应后,完成事务提交。
2.2.2 中断事务

在执行 Prepare 步骤过程中,如果某些参与者执行事务失败、宕机或与协调者之间的网络中断,那么协调者就无法收到所有参与者的 YES 响应,或者某个参与者返回了 No 响应,此时,协调者就会进入回退流程,对事务进行回退。流程如下图红色部分(将 Commit 请求替换为红色的 Rollback 请求):

2pc_rollback

  • rollback 请求
    协调者向所有参与者发送 Rollback 请求。

  • 事务回滚
    参与者收到 Rollback 后,使用 Prepare 阶段的 Undo 日志执行事务回滚,完成后释放事务执行期占用的所有资源。

  • 反馈结果
    参与者执行事务回滚后向协调者发送 Ack 响应。

  • 中断事务
    接收到所有参与者的 Ack 响应后,完成事务中断。

3. 2PC的问题

  • 同步阻塞
    参与者在等待协调者的指令时,其实是在等待其他参与者的响应,在此过程中,参与者是无法进行其他操作的,也就是阻塞了其运行。
    倘若参与者与协调者之间网络异常导致参与者一直收不到协调者信息,那么会导致参与者一直阻塞下去。

  • 单点
    在 2PC 中,一切请求都来自协调者,所以协调者的地位是至关重要的,如果协调者宕机,那么就会使参与者一直阻塞并一直占用事务资源。
    如果协调者也是分布式,使用选主方式提供服务,那么在一个协调者挂掉后,可以选取另一个协调者继续后续的服务,可以解决单点问题。但是,新协调者无法知道上一个事务的全部状态信息(例如已等待 Prepare 响应的时长等),所以也无法顺利处理上一个事务。

  • 数据不一致
    Commit 事务过程中 Commit 请求/Rollback 请求可能因为协调者宕机或协调者与参与者网络问题丢失,那么就导致了部分参与者没有收到 Commit/Rollback 请求,而其他参与者则正常收到执行了 Commit/Rollback 操作,没有收到请求的参与者则继续阻塞。这时,参与者之间的数据就不再一致了。
    当参与者执行 Commit/Rollback 后会向协调者发送 Ack,然而协调者不论是否收到所有的参与者的 Ack,该事务也不会再有其他补救措施了,协调者能做的也就是等待超时后向事务发起者返回一个“我不确定该事务是否成功”。

  • 环境可靠性依赖
    协调者 Prepare 请求发出后,等待响应,然而如果有参与者宕机或与协调者之间的网络中断,都会导致协调者无法收到所有参与者的响应,那么在 2PC 中,协调者会等待一定时间,然后超时后,会触发事务中断,在这个过程中,协调者和所有其他参与者都是出于阻塞的。这种机制对网络问题常见的现实环境来说太苛刻了。

  • 参考
    https://juejin.cn/post/6844903814898647048


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK