科大讯飞
项目概述
客户重要的机器学习样本文件集中存放在统一的曙光存储上,数据来源于各部门,是根据生产需求或买或采集各种数据。曙光ParaStor存储上的样本文件还供给其他业务使用,并且没有删除策略,文件数据巨大。
用户管理要求,曙光ParaStor存储只开放NFS接口用于数据保护;
数据总量约4PB,文件总数量10亿以上,以语音、文本文件等非结构化文件为主;
通常情况下资料需要永久保存; 传统备份无法有效完成数据保护。
解决方案
使用云信达CDM系统提供文件同步(FSM)模块,从通用NAS存储中,快速获取全量增量,并且上传至目标存储。CDM管理平台进行分布式任务调度和分布式元数据管理,分配数据传输任务到多个CDM节点,实现任务分拆、并行加速,以获得良好的文件性能体验。
项目亮点
集群文件传输速度线性增长,增量备份速度是提升30+倍。
实测全量单节点传输速度达52M/S,1500万小文件增量检索时间不到3分钟。
CDM数据保护平台还提供丰富的副本服务,包括快速备份、快速恢复、细颗粒度恢复等功能。