CDM助力金融数据管理

2020-02-14

党的十九届四中全会将“数据”列为生产要素参与分配,标志着以数据为关键要素的数字经济进入了新时代。金融业是数据密集型行业,在生产经营过程中积累了海量的数据金矿。中国人民银行提出做好数据治理推动数字化转型的规划和部署。作为数据管理行业的老兵,笔者对于央行提出的数据治理的思路非常认同,在此结合国际上新兴的CDM数据管理技术探讨金融机构进行数据资产管理的对象和基础平台。

数据管理的对象

无论按照单位数据价值(Value per bit)还是数量,金融行业无疑排在前列,如何用好数据海洋,这一重要课题一直为金融业以及金融监管者所关注。在金融科技领域,运行部门有一系列的数据复制和整合工具,近些年相继建设了大数据平台,可是并不符合管理者的要求。原因一是工具零乱,存在各自的局限性和缺陷,二是大数据平台的业务属性。所幸的是,针对打破金融企业内部一个个“数据孤岛”,新兴的中外数据管理技术取得了关键性的探索成果。


从企业数据总线到数据中台,企业级的数据共享或整合经历了两个时代、两种思路。数据中台成为近年的热点,这从一个侧面反映了管理者对整合业务数据的强烈需求。不过,中台是一个应用层面的概念,对业务快速变化和迭代有促进作用,不同于互联网企业,金融业用户尚在试探过程中。从双模态IT的角度,中台不是用于击穿稳态IT的,业内有一种说法:中台实施的不好会变成一个更大的烟囱,而CDM加速双模态IT成为一种很有效的途径。


数据复制的工具更是五花八门,遗憾的是,绝大多数工具都有自己的适用环境。例如:数据库复制工具仅适用特定数据库,存储复制工具仅适用特定存储。有一些IO层的数据复制工具,例如CDP,应用风险较大已经被共识。应用层面的数据抽取工具,例如各色ETL工具,尽管可以适用各种数据复制场景,但是应用层的数据获取失去了原生数据的资产属性,更不用说工具的成熟度了!


大数据是一个整合的数据应用平台,可是并不是数据资产平台。首先,大数据平台建立的目的是支持决策,绝大多数知识敏感型决策是面向分析型的,数据会装载到各种对应的分析模型,甚至形成许多中间数据;少量时间敏感型决策更是基于时序或空间组织数据,经过算法和决策支持模型反驱业务。总之,大数据是面向决策支持的数据应用平台,为了适应业务模型,数据会变形或转换,从而失去了原生性,因此不是理想的资产管理目标。从数据资源整合和数据治理的角度,我们唯一需要关注的是数据进入大数据应用之前的数据获取和整合能力。传统数据仓库之前有ODS(Operational Data Store),现代大数据之前有数据湖(Operational Data Lake),如果有一个原生的、操作型业务数据的集散地,那将是数据资产管理和数据治理的理想目标!


一直以来,金融机构的管理者希望拥有对数据资产一目了然的能力。可是至今,只有系统管理员、数据库管理员和大数据管理员,极少有金融机构设立横跨各部门的数据管理职能或者是“数据管理员”!有人戏称:“数据库管理员减掉一个字,变成数据管理员,提升两个境界。”我们从这样令人遗憾的现状中找到了人民银行科技司司长李伟发表在《中国金融》杂志的文章中提到的金融业数据治理之“困”的原因。那就是,长期以来,在企业和机构内部原生性业务数据的整合集散缺少一次质变的契机。我们说金融业数据价值极大,任何金融机构都把数据保护看得很重,生产系统的原生数据,包括数据发生逻辑变化的时间变量,全都被忠实地记录在数据备份系统。的确,备份系统一直以来沉淀着金融机构全面的原生数据副本,有的甚至保留几十年的备份数据,并且定期更新介质。


无疑,备份系统是一座巨大的数据资产宝库。但据国际数据公司IDC 2018年的一项报告,全球70%的CIO对现有数据备份系统不满意,50%的CIO计划更换或升级现有备份系统。环视现有的主流备份技术,自20多年前出现至今没有发生大的变化,除了10年前的一场集体“重复数据删除”大跃进将磁带备份带入磁盘备份的轨道。由于备份数据仅用于重大事故的恢复,使得备份系统的价值平时难以显现,用户投资欲望不高,从而成为运维人员眼中的“鸡肋”;同时,海量备份数据长期沉默,成为“暗数据”。这一切随着新技术的产生发生了变化!


2016年,Gartner的一篇报告——创新洞察力:CDM加速双模态IT (Innovation Insight: Copy Data Management Accelerates Bimodal IT)定义了一种新技术——CDM,即“复制数据管理”。CDM首先是一种备份新技术,以“原格式”(Disk Native Format)和“活跃黄金副本”(Live Golden Image)为特征的数据备份方式一夜之间颠覆了沉寂了20年之久的旧备份体系;“原格式”使得备份数据直接可用,“活跃黄金副本”使得各个时间序列的数据版本可以“活用”。因此CDM打开了“备份数据”可以被管理、被使用的大门,使得“面向恢复的备份”变成“面向数据使用的备份”,企业的海量备份数据从此被“盘活”,备份管理员升格为“数据资产管理员”。把严谨枯燥的运维变成敏捷数据服务,契合了当今把开发(Dev)和运维(Ops)融合跨界的潮流。因此,Gartner将CDM定义为加速双模态IT的数据管理技术。(注:双模态指的是“稳态”和“敏态”)


2018年,CDM初创企业,美国Rubrik公司进一步把CDM推向“云数据管理”——Cloud Data Management,实现多云环境下的数据保护、数据副本管理和敏捷数据服务。不仅如此,受此影响Gartner整个备份恢复研究室的分析师纷纷跳槽到CDM初创企业,在Gartner内部引起了不小的震动。上述事件直接导致Gartner重新审视存储定义方法,把存储分类以存储形态为中心,改为以数据为中心。2019年7月,Gartner发布的存储研究报告正式把存储分类从高端存储、中低端存储、AFA全闪存储、分布式存储、PBBA备份专用一体机的分类,变更为主存储、第二存储和B&R备份恢复一体机,主存储满足生产主数据的读写需求,第二存储(Secondary Storage)以存储复制数据(Copy Data)为主的二级数据为目的,被Gartner当成增长迅速的方向。与此同时,PBBA备份一体机被B&R备份恢复一体机取代,在Gartner看来,凡是只能做备份不能原地恢复的备份一体机将被历史所淘汰……


CDM和第二存储就像投下的两颗深水炸弹,其爆发的威力即将逐级显现。对金融机构来说,基于第二存储(传统或多云形式)的复制数据管理平台必将成为企业级的数据资源中心,作为企业或机构内部原生的、历史的数据资产总集,被管理者发现和重视,成为数据治理的重要对象仅仅是时间的问题。


既然数据保护是金融业的底线,是必须要做的一件事,投资数据保护获得一个数据资源中心是一举两得的事,因此一场数据保护技术革命即将到来,这个观点和前述IDC的调查报告不谋而合。

开辟数据生态

当我们把数据备份看作数据资源中心的时候,它就跳出了传统运维的角色,升华为“数据管理”业务平台,而不是限定在“灾备”或者是“业务连续性”范畴。


业务平台需要生态支持。首先,金融业的数据治理是一个复杂的体系,包括数据资产的定义、分级、分类,治理的目的、规范、标准和流程等等。但至少我们找到了一个理想的对象——覆盖全面的、全生命周期的、原格式的、基于生产系统新鲜副本的资产总集。


其次,数据管理业务平台输出的不仅仅是原格式数据资产,它必然会链接到多个不同的业务场景。例如:审计,审计署要求按照时间点固化数据以便审计作业;再例如:大数据应用也需要多个数据源同一个时间点的固化数据,没有比CDM更简易的技术手段了!CDM作为一个标准的、灵活的数据资源供给中心,可以代替多种场景、多种应用所采用的点到点的、笨重的、甚至有风险的数据获取工具。


除了组织内部的数据输出,监管单位和外部合作伙伴的数据上收或交换也变得更简单、快捷了。以往由于带宽的限制,监管单位只能上收极少量的重点数据,跨云、跨域的数据调度是一个待解决的难题,云数据管理可以加速金融云的构建。同样,符合行业标准的跨企业的数据输出、数据交易也变得更加可行。当然,行业数据治理规范、金融数据立法、数据脱敏的相应标准制订等需要大大加快,才能满足数据交易、数据增值的需求。


前文提到了隐藏在数据仓库和大数据应用之前的ODS或数据湖,数据价值挖掘从来都不是从生产原数据到数据价值呈现一蹴而就的,这在业内是一个容易被忽视的盲点。组织往往重视仓库或大数据应用的建设,而忽视ODS或大数据湖的建设。元数据(Metadata)管理是企业数据资产管理的重要问题,当前金融业数据湖建设尚处于萌芽阶段,可以考虑合并CDM和大数据湖的建设。相比大数据湖,CDM作为数据保护基础设施更加底层和必要。

 图片关键词

▲图:CDM生态模型


端到端的CDM加速双模态IT

根据Gartner定义,双模态IT(Bimodal IT)是指两种不同的、共存的工作模态和场景:模态一集中在完全理解的、能精确预知的领域,它的工作是将这些领域从传统的IT环境进化到更加适应互联网化的世界,这里更强调持续的“可靠性”,像马拉松运动员。模态二面对的是未知的、全新的问题,它通过探索、试验来处理未确定性,这里更强调“敏捷性”,像短跑运动员。在企业向第三平台转型过程中,二者缺一不可、相辅相成。比如:系统运维属于模态一的范畴,应用开发属于模态二的范畴。


金融业是典型的“求稳型”机构,面对新科技的冲击,金融IT普遍走向双模态,决定企业存续的核心交易业务保持稳态,探索型新业务走向敏态。双模态不是打破旧的烟囱,树立新的烟囱,如何架起双模态之间的桥梁?实现数据的无缝对接是关键!

 图片关键词

▲图:CDM与双模态IT


CDM的端到端属性可以帮助用户实现从稳态架构获取主数据,满足以第二存储和虚拟副本的方式快速供给敏态业务的需要。数据获取是传统运维的范畴,以“原格式”“永久增量”和“活跃黄金副本”的特征颠覆了传统备份,我们称之为“备份现代化”。再通过虚拟化方式派生出许多份虚拟副本,相比传统技术采用的物理复制,虚拟化方式生成副本非常快。当N份虚拟副本搭乘跨域、跨云同步,再配合丰富的编排按钮(格式转换、脱敏、挂载等),虚拟副本就变成了一种随时随地订阅的弹性数据服务,它拥有自服务和自动化的特征,填补了现有敏态IT数据能力的缺憾!在整个业务流程中,数据获取、数据存储和通讯、数据服务构建了横跨双模态IT的端到端数据能力,构成数据驱动业务的重要一环。


Gartner分析师倡导一个新概念——CDM为DevOps赋能!在金融行业,DevOps正在从概念走向实践,越来越多的金融企业引入微服务架构实现开发交付过程中的灰度测试、灰度发布、持续集成和自动化编排,云原生架构中自动化程度较低的是数据的准备,很多情况下仍旧依赖传统运维的手段。按照目前可见的发展路径,CDM技术同云原生融合之后将大大降低金融业应用DevOps的门槛。


只有端到端的CDM技术才能整合数据保护、数据存储和数据服务的价值,实现用户投资效益增长,实现数据资产从获取、保护、治理、使用的自动化。金融机构的数据之“困”有望真正解除。


本文转载自中国金融杂志,已获得作者转载授权。