MySQL GTID的混合问题修复和思考 - 成就云开发者社区

这几天做一个跨机房实时迁移的操作，碰到一个有些奇怪的问题，记录一下。

整体服务是在两个机房对等部署，然后通过级联复制的方式串起来。

实际切换前，节点B因为是从库，是很容易摘除的，所以整体的部署架构仅剩下A,C,D

同时在切换前，为了保证整个业务访问域名的可用性，会临时开启双主复制，这个阶段能够最大程度保证数据的完整性。当然这里会有两种模式，一种是最大保护模式，最大保护模式意味着数据只能从一个入口写入，如果双写很可能会数据冲突，第二种是最大可用模式，也就意味着整个过程数据在两边始终可以写入。这个模式的选用和具体的业务特点有关（读多写少，读多写多等）。

所以A和C之间的双主配置就显得尤其重要，也是整个平滑切换数据完整性的基础。

目前A,C,D节点的GTID基本信息如下：

A: show master status

Executed_Gtid_Set: A:1-222717169,B:1-697

C：show slave status

Executed_Gtid_Set: A:1-222716771,B:1-700

D：show slave status

Executed_Gtid_Set: A:1-222716771,B:1-700

这个数据表达的含义比较深刻，那就是在数据链中，存在已被摘除的节点B的GTID信息，而从C,D的GTID相关信息可以看到，B中是丢失了一个数据事务的（当然这个过程不是真正的数据变化，和操作不规范有关）

所以在这种情况下如果要配置双主，需要解决的就是B相关GTID的差异，一种是直接抹去B的痕迹，这个过程需要在C,D上面可操作，但是实际复制双主的时候又会出问题。

如果把GTID当做一种数据血缘的角度会发现，整个GTID真是一个很有灵性的设计。假设红色是A的数据血缘，绿色是B的数据血缘。

舍弃了B之后，A,C开启了双主，整个数据血缘就是如下的状态了：

所以整个复制拓扑中的任何数据变化都能够有理有据的追溯，这是GTID设计很有价值的一件事情。

关于修复方式，也比较清晰，那就是把C和D的数据血缘B的部分做下“回退”，如下：

A: show master status

Executed_Gtid_Set: A:1-222717169,B:1-697

C：show slave status

Executed_Gtid_Set: A:1-222716771,B:1-697

D：show slave status

Executed_Gtid_Set: A:1-222716771,B:1-697

按照这种模式来一次修改C和D，整个双向复制就能够很快构建起来了。

回置GTID的原理可以参考如下的图，通过gtid_purged可以间接实现裁剪。

C端修复的步骤如下：

1）stop slave;

2）show slave status\G

3）reset master;

切记是在Slave端执行，这个阶段的目的就是要重新配置GTID的校准值。这个时候mysql.gtid_executed应该就是空的了。

4）重置GTID_purged值

SET @@GLOBAL.GTID_PURGED='A:1-222716771,B:1-697';

5）删除从库的复制配置

reset slave all;

6）配置复制关系

CHANGE MASTER TO MASTER_USER='dba_repl', MASTER_PASSWORD='xxxx' , MASTER_HOST='xxxxx',MASTER_PORT=xxxx,MASTER_AUTO_POSITION = 1;

7)重启Slave节点，查看状态

start slave;

show slave status\G

修复好之后，这部分打算是写一个巡检GTID和修复的脚本逻辑，能够把这部分的管理做得更细致一些。