因为敬畏所以备份,唯有盘活才能重生
云信达张兵CEO接受了长江证券的邀请就这段时间网络上议论的沸沸扬扬的WM删库事件做出数据保护层面的剖析。
WM事件的本质
感谢长江证券计算机首席分析师凌总,感谢清泉石资本提供的机会,让我来跟大家解读一下最近的WM事件。2月23号WM发生了一次比较严重的事故,直到3月3日才最终恢复了全部的业务。这件事情引起了轩然大波,波及到上百万的商户。作为一名IT的老兵,我来给大家做一次科普。
首先从科学的角度解读一下。顺便也揭示一下行业乱象。首先WM事件发生的根本原因是数据被人为删除了,包括数据运行的软环境一起被破坏了。需要注意一点,这里面没有发生任何的硬件故障。机房、链路、设备没有任何问题,所以故障的核心问题直接指向了数据。
常见的几种数据保护技术
在解读之前,先跟大家科普一下常见的三种数据保护技术:
第一种是本地高可用,是利用冗余算法把数据写成多份。常见的有镜像技术、多副本技术、主从复制等技术。它实现不止一份数据运行在不同的物理位置,所以叫本地的高可用。
第二种技术是容灾,本质上是本地高可用技术在物理位置上的延展。数据跨越大型的物理环境,通过通信链路来实现业务连续不中断。容灾的范畴比较广,不仅仅考虑数据,还要考虑整个物理环境和用户的应用。容灾不是简单的一种技术,它是一大堆技术加上管理的组合。
本地高可用和远程容灾复制技术,都是着眼于抵御基础设施的故障,从而保障业务持续运行不中断;我们制造的多份冗余数据,都是确保“当下”的数据在多个地方都有,而不关心传播的数据正确与否。
举个例子,不管是多副本还是容灾,主数据插入一个A,副本数据也插入一个A;主数据删除一个A,副本数据也删除一个A,以保持一致性。主数据全部delete all,副本数据也是删除全部delete all。WM事件的本质是系统本身没坏,但因为人为的灾难导致数据被错误的改变,进而蔓延到整个运行环境,彻底搅乱了应用系统,造成了数据逻辑灾难。从删库到跑路,这是我们业内经常调侃的一句话。多副本和容灾都拯救不了WM。能抵御逻辑错误和人为错误的,只有接下来要介绍的第三种技术,就是数据备份。
不少人喜欢用“灾备”这个词,但是容灾是容灾,备份是备份,出发点和作用有本质区别,专业的IT规划从来都是严格区分,各自建设的。
数据备份和前两种技术本质的差别是它制造冗余副本的过程,不在生产系统的主操作逻辑里面,备份和生产是两个平行的逻辑。备份进程伴随在生产进程旁边,真实记录数据的变化量。好比营业大厅的视频监控,不干扰营业,但是记录营业厅每个时间点的状态,可以回放。如果把数据当作客体对象,这个对象会沿着时间轴发生变化。我们想象一个长条切片面包,备份系统保留有每个时间点的切片,所以备份系统不是一个或两个生产数据的副本,而是一系列按时间轴排列的副本集。从时间维度来看,备份系统不强调实时性,但极其强调时间序列的连续性和真实性。
容灾不可替代备份,对数据保有敬畏之心
备份和生产,好比一个硬币的两面,是自IT诞生之初就存在着的一种古老的技术。在对生产系统进行任何重大的操作之前,例如上线、割接、升级和变更,我们通常都会说,“先做一次备份再干吧”。中国的哲学观点是“福祸相倚,阴阳相济”,因此既要对生产中的数据有敬畏之心,也要对数据备份有敬畏之心。
由于时间关系,就不对备份技术做大篇幅的展开了。接下来也想揭露一下WM事件折射出来的因为无知和缺乏敬畏之心而导致的行业乱象,让大家避免跳坑。
云端数据保护
备份面临的现状与出路问题探讨
我现在向大家提出两个问题,第一,企业为什么容易忽视数据备份的建设?WM这次出事明显地看出来,他没有备份。第二,数据备份的出路和方向在哪里?
第一个问题,备份是要花钱的,道理大家都是懂的。2018年IDC面向全球企业的CIO做了一次调研,结果显示,70%的CIO对现有的备份系统不满意,50%的CIO计划改造或更换备份系统,这是为什么?因为消费者花了钱觉得不爽,不爽在哪里?首先备份数据需要的存储空间是大于生产系统的存储空间,有当前的有历史的,当然大了。这不是主要的原因。在2016年之前,市面上的主流备份技术都是把生产数据拷贝成一系列的映像文件,备份下来的映像文件是不能直接使用的,恢复数据是需要我们找到相应时间点的映像文件,restore倒回到一个存储空间才能打开数据。
因此,backup和restore是一对逆过程。正是因为这份数据不能直接使用,需要准备额外的存储空间,并且要经过一系列复杂的操作,所以恢复时间长,代价大。用户平时很少做恢复操作。
我有个CIO朋友跟我说过一句话,他说:“我希望永远也不要用到备份系统”。用到它的时候都是发生了巨大的灾难,所以数据备份是企业救命的最后一根稻草。
在我职业生涯里面,我遇到好几回痛彻心扉的故事。有一次,一个很大的用户发生了逻辑灾难,生产系统无法修复。大领导忍痛挥泪下决定,把生产系统格式化存储,从备份系统把数据找回来恢复。恢复了N个小时之后,发现一个无情事实:数据是坏的,恢复不成功。客户已经把门都堵上了,IT领导想死的心都有了。这就是所有企业要面对的现状。
备份系统消耗存储、不断烧钱,对备份数据做恢复验证还需要花更大的代价,目的只是为了一个永远也不想用到的救命药丸。如果您是企业的CIO,您会对这样的备份系统满意吗?企业花钱买备份的心态,就好比我们买一个意外伤害保险,你愿意花大价钱去买一个意外伤害保险吗?无非是出于尊重生命或合规监管的要求而已,企业忽视数据备份的建设,除了认知误区,缺乏敬畏心,其实还有背后的技术问题。
第二个问题是数据备份的出路和方向。2016年全球知名的IT研究分析机构Gartner给了一个答案,5个字,盘活暗数据。什么是暗数据呢?备份数据就是暗数据,平时不用,沉默在那,消耗企业的成本。事实上企业暗数据的数量要远远大于生产。
IDC做过一个统计,一个中型企业的生产数据会分成8~10份副本,供不同的人在不同的场景使用。打个比方,备份是一份,容灾要一份,查询统计要一份,开发测试要一份等等。一方面造成了存储的重复、浪费,另一方面数据的使用效率是不高的。企业目前没有很好的管理办法。
CDM创新备份技术,打穿了备份和数据使用
暗数据的技术和逻辑的特征是副本数据,也就是非原生数据,从生产系统复制出来的数据。所以Gartner在2016年定义了一种新的技术,叫副本数据管理,或者叫复制数据管理,英文名字叫copy data management,简称CDM。
Gartner定义了CDM三个特征:一、原格式拷贝;二、活跃黄金副本;三、虚拟副本服务。原格式拷贝得到的是活跃黄金副本,不同于传统备份的映像文件,是可以直接打开使用的。不过黄金副本是不会直接拿来用的,它是生产数据的权威的、基本的备份,是不能篡改的。因此以黄金命名。但是黄金副本可以通过一种数据虚拟化技术,可以提供虚拟副本服务。虚拟副本,第一它不占用存储空间,第二数量不限,第三可以追溯到任何时间点,第四可读可写。以上特征打穿了备份和数据使用,是一种端到端的跨界技术。
备份,传统上是运维的范畴,数据使用是业务的范畴。跨界的威力是巨大的,本来传统备份对企业来说是鸡肋,CDM现在是以终为始,把单纯面向恢复的数据备份变成了面向数据使用的备份。也就是,你备份完了,对CDM来讲才刚刚开始。运维的工具就变成了一个业务平台。备份从运维工具变成一个业务平台,数据备份这个古老的行当,就犹如凤凰涅槃浴火重生了。因此,盘活暗数据是数据备份的出路和方向,而CDM是一个理想的技术。
用户不愿意在老备份上花很多钱投资,因此会出现很多人会对备份意识不够,备份技术缺失等问题。自2016年以后,Gartner定义了CDM之后掀起了一番热潮。2018年,Gartner的备份恢复研究室的5个分析师,全体跳槽到了几家CDM初创企业,导致当年Gartner业务停滞,年度报告空缺了一年。其中知名是一个美国的CDM初创企业叫Rubrik,它不仅挖了Gartner的人,还公开叫板,打出一个新的概念,叫cloud data management,简称也叫CDM。
所以从2018年开始,复制数据管理进入了云数据管理的时代。简言之,CDM备份云也把备份数据的存储和使用通过云来展开,把复制数据管理从数据中心扩展到各种云,公有云、私有云等等。请大家一定要清楚,云数据管理CDM是基于复制数据管理的云数据管理,不是云里雾里的泛化的概念。在短短的2-3年,数据备份经历了两次升华,旧的玩家岌岌可危,新的玩家冉冉升起。
2016年Gartner初次定义CDM的文章的题目是《复制数据管理加速双态IT》。所谓的“双态”是稳态和敏态。稳态是决定企业存续的生产交易等核心业务系统,是求稳的;敏态是在企业数字化转型过程中,产生了大量的探索型、创新型的业务,追求的是敏捷性。大多数企业一般会采用一种新的技术,分布式、微服务架构,WM既有稳态也有敏态。
大企业客户会把稳态交给公云吗?不会。公有云是中小企业的归宿,大企业的归宿是双态。为什么CDM会加速双态IT?重要的原因是敏态业务的数据来自于稳态,CDM是端到端的跨界的技术,所以可以打通稳态和敏态,打通企业数据中心,私有云、公有云,加速数据流转。
WM事件的深度解读
回到WM事件,WM的IT本来是云上云下都有的。客户应用在腾讯云上面,客户的信息和账单放在一个线下数据库里,结果都被人为地破坏了。WM在3月1日晚上11点多发了一个公告。从WM的事后公告,可以得到如下几个信息:
第一,WM承认自己没有做好备份。以后线下的部分也要迁到云上,好像有腾讯云的加持就安全了;第二,腾讯云宣称帮助WM找回了数据,但没有用恢复数据的字眼;第三,从2月23日发生灾难到3月3日恢复数据,整整花了9天的时间,而且3月2日花了一天的时间做恢复演练,做恢复演练的过程中停止业务。
我想问,是不是全上云就不会发生类似灾难了?前两天我看云头条带节奏发了一个文章,说WM事件的解决是很完美的,较好的方案是全上云,不要半上云。你们觉得这个是理智的理性的一个分析吗?
其实WM这个事情它的根本原因是它是一个信息安全的事件,是人为地突破了防御,就干掉了数据。但是我们知道,做安全是七分管理,三分技术。管理里面有很多要素,里面有一个要素就是人,人是最不可琢磨的。一个高级的运维主管,突破了所有的堡垒机,所有的安全的防御,完全合理地删除了这些数据,你怎么防?所以放弃幻想吧。我再问9天时间,才全面恢复业务,能够接受吗?
关于云信达
我们云信达公司是从2016年开始就专注于CDM技术的研发,主打产品eCloud Data Master是真正意义上的采用CDM技术的产品,从Gartner所定义的原格式的备份,到虚拟副本服务到多云的扩展。目前我们已经发展起了全技术栈的CDM的技术,是国内具有先进技术的CDM厂商,有兴趣的朋友欢迎来洽谈业务投资。