EasyDAP (EDAP) 是一站式数据湖管理与分析平台,提供数据采、建、管、用全生命周期的大数据能力, 帮助企业数据资产建设和开发分析应用。EDAP 提供多种计算平台支持及可拓展的开放能力,降低企业大数据开发应用门槛、提高大数据开发效率。
干货概览 在百度大规模时序数据存储(一)| 监控场景的时序数据文章中,我们简要地介绍了百度监控场景时序数据的特点,且分析了在每天万亿级的数据规模下,时序数据的存储所面临着的诸多挑战。
同时并非将数据移动到单个存储库中,在数据原本存储的地方访问数据并动态执行数据转换和汇总。 数据规模。
早期方案一般基于数据库中间件存储元数据,这类方案存在两个比较大的问题:1)扩展性存在瓶颈——扩容只能倍扩,对成本造成很大压力;2)对跨库的分布式事务支持不好。
总结 本文主要介绍了监控场景时序数据的特点,以及我们在设计时序数据存储时面临的挑战,对于百度在应对这些挑战时的设计实践,敬请期待下期文章。
过期数据处理 数据价值会随着时间越来越低,任何一个存储系统都不可能永久无限制地保存所有历史数据,因为无论从成本投入、维护难度上都是得不偿失。
缓存图示 文件存储 如果需要开发一款抖音、B 站之类的产品,就需要存储大量图像、视频等数据,仅仅一个数据库可能并不能满足我们的需求,因为这时需要存储的是文件而非一般的数据信息,数据库本质依然只能用来查询信息数据而已
存储成本:随着多模态的引入,业务数据由几十 TB、数百 TB 快速积累到数 PB,存储成本越来越不容忽视。
设备购买、维护及软件安装成本远高于购买云数据库服务,并且难部署; 高运维成本:传统单机数据库多采用主备架构保证高可用和业务连续,该架构弹性能力差、流量高峰同步效率低、主备切换时间不可控,运维人员工作负担重
由于数据规模庞大且出于业务数据隔离和定期清理的需要,我们设计了分库分表功能;为了提升历史数据存储和查询效率,同时节省存储成本,我们又设计了多级降采样功能。
,我们设计了具备分钟级自愈能力的异地冗余架构;为了节约存储成本,我们引入并改进了 Facebook 的时序数据压缩算法。