因为敬畏所以备份，唯有盘活才能重生

2024-04-10

云信达张兵CEO接受了长江证券的邀请就这段时间网络上议论的沸沸扬扬的WM删库事件做出数据保护层面的剖析。

WM事件的本质

感谢长江证券计算机首席分析师凌总，感谢清泉石资本提供的机会，让我来跟大家解读一下最近的WM事件。2月23号WM发生了一次比较严重的事故，直到3月3日才最终恢复了全部的业务。这件事情引起了轩然大波，波及到上百万的商户。作为一名IT的老兵，我来给大家做一次科普。

首先从科学的角度解读一下。顺便也揭示一下行业乱象。首先WM事件发生的根本原因是数据被人为删除了，包括数据运行的软环境一起被破坏了。需要注意一点，这里面没有发生任何的硬件故障。机房、链路、设备没有任何问题，所以故障的核心问题直接指向了数据。

常见的几种数据保护技术

在解读之前，先跟大家科普一下常见的三种数据保护技术：

第一种是本地高可用，是利用冗余算法把数据写成多份。常见的有镜像技术、多副本技术、主从复制等技术。它实现不止一份数据运行在不同的物理位置，所以叫本地的高可用。

第二种技术是容灾，本质上是本地高可用技术在物理位置上的延展。数据跨越大型的物理环境，通过通信链路来实现业务连续不中断。容灾的范畴比较广，不仅仅考虑数据，还要考虑整个物理环境和用户的应用。容灾不是简单的一种技术，它是一大堆技术加上管理的组合。

本地高可用和远程容灾复制技术，都是着眼于抵御基础设施的故障，从而保障业务持续运行不中断；我们制造的多份冗余数据，都是确保“当下”的数据在多个地方都有，而不关心传播的数据正确与否。

举个例子，不管是多副本还是容灾，主数据插入一个A，副本数据也插入一个A；主数据删除一个A，副本数据也删除一个A，以保持一致性。主数据全部delete all，副本数据也是删除全部delete all。WM事件的本质是系统本身没坏，但因为人为的灾难导致数据被错误的改变，进而蔓延到整个运行环境，彻底搅乱了应用系统，造成了数据逻辑灾难。从删库到跑路，这是我们业内经常调侃的一句话。多副本和容灾都拯救不了WM。能抵御逻辑错误和人为错误的，只有接下来要介绍的第三种技术，就是数据备份。

不少人喜欢用“灾备”这个词，但是容灾是容灾，备份是备份，出发点和作用有本质区别，专业的IT规划从来都是严格区分，各自建设的。

数据备份和前两种技术本质的差别是它制造冗余副本的过程，不在生产系统的主操作逻辑里面，备份和生产是两个平行的逻辑。备份进程伴随在生产进程旁边，真实记录数据的变化量。好比营业大厅的视频监控，不干扰营业，但是记录营业厅每个时间点的状态，可以回放。如果把数据当作客体对象，这个对象会沿着时间轴发生变化。我们想象一个长条切片面包，备份系统保留有每个时间点的切片，所以备份系统不是一个或两个生产数据的副本，而是一系列按时间轴排列的副本集。从时间维度来看，备份系统不强调实时性，但极其强调时间序列的连续性和真实性。

容灾不可替代备份，对数据保有敬畏之心

备份和生产，好比一个硬币的两面，是自IT诞生之初就存在着的一种古老的技术。在对生产系统进行任何重大的操作之前，例如上线、割接、升级和变更，我们通常都会说，“先做一次备份再干吧”。中国的哲学观点是“福祸相倚，阴阳相济”，因此既要对生产中的数据有敬畏之心，也要对数据备份有敬畏之心。

由于时间关系，就不对备份技术做大篇幅的展开了。接下来也想揭露一下WM事件折射出来的因为无知和缺乏敬畏之心而导致的行业乱象，让大家避免跳坑。

云端数据保护

公有云服务进入大型IT企业的时间较短，许多方面缺乏沉淀和积累，还要交很多学费。两年前，我遇到某公司的一个很年轻的技术专家，我跟他在交流备份技术，他听了一会，打断我，跟我说，“我们互联网公司采用分布式技术，数据都是多副本，你讲的备份过时了”。

又一次，我跟一个知名大咖交流项目，他问我一个问题，说：“某云用不用你的技术？我一个亲戚在某云做高管，你不要骗我”。交流过程中他出去了一会，回来后说：“我给我亲戚打电话了，他说某云的数据的可靠性达到了99.99%，白金级的，你的备份不重要”。我心想，他所说的某云一年多前刚刚发生一起事故，把一个企业的运营数据永久丢失了。讲到这里，许多人脸色大变，原来云服务商承诺的99.99%，是不考虑逻辑故障的前提下得出的。潮水退去了，才发现原来都没有穿短裤。

对一个科技企业来说，做备份并不是很难的事，难的是无死角、持之以恒地做备份，这关乎代价。公有云有数据备份服务，只不过是需要额外付费。他为了维护99.99%的尊严，没有人告诉你，逻辑灾难不在常规的保护范围内。

WM事件里面不仅数据被删除了，数据运行的软环境也被破坏了，因此修复时间非常漫长。有人问如果把数据备份到另一个云上或者是备份下云，在另一个云或云下有一套干净环境，是不是可以大大缩短业务恢复时间？恭喜你答对了！不过要提醒的是，数据上云是很便宜的，上传容易下传难，下载流量贵的不得了。吐槽归吐槽，但是我们还是得怀着一颗敬畏之心看待数据保护这件事儿。

备份面临的现状与出路问题探讨

我现在向大家提出两个问题，第一，企业为什么容易忽视数据备份的建设？WM这次出事明显地看出来，他没有备份。第二，数据备份的出路和方向在哪里？

第一个问题，备份是要花钱的，道理大家都是懂的。2018年IDC面向全球企业的CIO做了一次调研，结果显示，70%的CIO对现有的备份系统不满意，50%的CIO计划改造或更换备份系统，这是为什么？因为消费者花了钱觉得不爽，不爽在哪里？首先备份数据需要的存储空间是大于生产系统的存储空间，有当前的有历史的，当然大了。这不是主要的原因。在2016年之前，市面上的主流备份技术都是把生产数据拷贝成一系列的映像文件，备份下来的映像文件是不能直接使用的，恢复数据是需要我们找到相应时间点的映像文件，restore倒回到一个存储空间才能打开数据。

因此，backup和restore是一对逆过程。正是因为这份数据不能直接使用，需要准备额外的存储空间，并且要经过一系列复杂的操作，所以恢复时间长，代价大。用户平时很少做恢复操作。

我有个CIO朋友跟我说过一句话，他说：“我希望永远也不要用到备份系统”。用到它的时候都是发生了巨大的灾难，所以数据备份是企业救命的最后一根稻草。

在我职业生涯里面，我遇到好几回痛彻心扉的故事。有一次，一个很大的用户发生了逻辑灾难，生产系统无法修复。大领导忍痛挥泪下决定，把生产系统格式化存储，从备份系统把数据找回来恢复。恢复了N个小时之后，发现一个无情事实：数据是坏的，恢复不成功。客户已经把门都堵上了，IT领导想死的心都有了。这就是所有企业要面对的现状。

备份系统消耗存储、不断烧钱，对备份数据做恢复验证还需要花更大的代价，目的只是为了一个永远也不想用到的救命药丸。如果您是企业的CIO，您会对这样的备份系统满意吗？企业花钱买备份的心态，就好比我们买一个意外伤害保险，你愿意花大价钱去买一个意外伤害保险吗？无非是出于尊重生命或合规监管的要求而已，企业忽视数据备份的建设，除了认知误区，缺乏敬畏心，其实还有背后的技术问题。

第二个问题是数据备份的出路和方向。2016年全球知名的IT研究分析机构Gartner给了一个答案，5个字，盘活暗数据。什么是暗数据呢？备份数据就是暗数据，平时不用，沉默在那，消耗企业的成本。事实上企业暗数据的数量要远远大于生产。

IDC做过一个统计，一个中型企业的生产数据会分成8~10份副本，供不同的人在不同的场景使用。打个比方，备份是一份，容灾要一份，查询统计要一份，开发测试要一份等等。一方面造成了存储的重复、浪费，另一方面数据的使用效率是不高的。企业目前没有很好的管理办法。

CDM创新备份技术，打穿了备份和数据使用

暗数据的技术和逻辑的特征是副本数据，也就是非原生数据，从生产系统复制出来的数据。所以Gartner在2016年定义了一种新的技术，叫副本数据管理，或者叫复制数据管理，英文名字叫copy data management，简称CDM。

Gartner定义了CDM三个特征：一、原格式拷贝；二、活跃黄金副本；三、虚拟副本服务。原格式拷贝得到的是活跃黄金副本，不同于传统备份的映像文件，是可以直接打开使用的。不过黄金副本是不会直接拿来用的，它是生产数据的权威的、基本的备份，是不能篡改的。因此以黄金命名。但是黄金副本可以通过一种数据虚拟化技术，可以提供虚拟副本服务。虚拟副本，第一它不占用存储空间，第二数量不限，第三可以追溯到任何时间点，第四可读可写。以上特征打穿了备份和数据使用，是一种端到端的跨界技术。

备份，传统上是运维的范畴，数据使用是业务的范畴。跨界的威力是巨大的，本来传统备份对企业来说是鸡肋，CDM现在是以终为始，把单纯面向恢复的数据备份变成了面向数据使用的备份。也就是，你备份完了，对CDM来讲才刚刚开始。运维的工具就变成了一个业务平台。备份从运维工具变成一个业务平台，数据备份这个古老的行当，就犹如凤凰涅槃浴火重生了。因此，盘活暗数据是数据备份的出路和方向，而CDM是一个理想的技术。

用户不愿意在老备份上花很多钱投资，因此会出现很多人会对备份意识不够，备份技术缺失等问题。自2016年以后，Gartner定义了CDM之后掀起了一番热潮。2018年，Gartner的备份恢复研究室的5个分析师，全体跳槽到了几家CDM初创企业，导致当年Gartner业务停滞，年度报告空缺了一年。其中知名是一个美国的CDM初创企业叫Rubrik，它不仅挖了Gartner的人，还公开叫板，打出一个新的概念，叫cloud data management，简称也叫CDM。

所以从2018年开始，复制数据管理进入了云数据管理的时代。简言之，CDM备份云也把备份数据的存储和使用通过云来展开，把复制数据管理从数据中心扩展到各种云，公有云、私有云等等。请大家一定要清楚，云数据管理CDM是基于复制数据管理的云数据管理，不是云里雾里的泛化的概念。在短短的2-3年，数据备份经历了两次升华，旧的玩家岌岌可危，新的玩家冉冉升起。

2016年Gartner初次定义CDM的文章的题目是《复制数据管理加速双态IT》。所谓的“双态”是稳态和敏态。稳态是决定企业存续的生产交易等核心业务系统，是求稳的；敏态是在企业数字化转型过程中，产生了大量的探索型、创新型的业务，追求的是敏捷性。大多数企业一般会采用一种新的技术，分布式、微服务架构，WM既有稳态也有敏态。

大企业客户会把稳态交给公云吗？不会。公有云是中小企业的归宿，大企业的归宿是双态。为什么CDM会加速双态IT？重要的原因是敏态业务的数据来自于稳态，CDM是端到端的跨界的技术，所以可以打通稳态和敏态，打通企业数据中心，私有云、公有云，加速数据流转。

WM事件的深度解读

回到WM事件，WM的IT本来是云上云下都有的。客户应用在腾讯云上面，客户的信息和账单放在一个线下数据库里，结果都被人为地破坏了。WM在3月1日晚上11点多发了一个公告。从WM的事后公告，可以得到如下几个信息：

第一，WM承认自己没有做好备份。以后线下的部分也要迁到云上，好像有腾讯云的加持就安全了；第二，腾讯云宣称帮助WM找回了数据，但没有用恢复数据的字眼；第三，从2月23日发生灾难到3月3日恢复数据，整整花了9天的时间，而且3月2日花了一天的时间做恢复演练，做恢复演练的过程中停止业务。

我想问，是不是全上云就不会发生类似灾难了？前两天我看云头条带节奏发了一个文章，说WM事件的解决是很完美的，较好的方案是全上云，不要半上云。你们觉得这个是理智的理性的一个分析吗？

其实WM这个事情它的根本原因是它是一个信息安全的事件，是人为地突破了防御，就干掉了数据。但是我们知道，做安全是七分管理，三分技术。管理里面有很多要素，里面有一个要素就是人，人是最不可琢磨的。一个高级的运维主管，突破了所有的堡垒机，所有的安全的防御，完全合理地删除了这些数据，你怎么防？所以放弃幻想吧。我再问9天时间，才全面恢复业务，能够接受吗？

关于云信达

我们云信达公司是从2016年开始就专注于CDM技术的研发，主打产品eCloud Data Master是真正意义上的采用CDM技术的产品，从Gartner所定义的原格式的备份，到虚拟副本服务到多云的扩展。目前我们已经发展起了全技术栈的CDM的技术，是国内具有先进技术的CDM厂商，有兴趣的朋友欢迎来洽谈业务投资。

因为敬畏所以备份，唯有盘活才能重生

产品介绍

客户案例

服务体系

支持中心