可靠性数据lakehouse

的架构原则可靠性支柱地址的能力系统从故障中恢复过来,继续函数。

可靠性lakehouse砖的架构图。

可靠性原则

  1. 设计为失败

    在一个高度分布式环境中,会发生中断。平台和各种工作负载,如流媒bob体育客户端下载体工作,批作业,模型训练和BI查询失败必须预期和弹性的解决方案必须开发增加可靠性。重点是设计应用程序恢复迅速,在最好的情况下自动进行。

  2. 数据质量管理

    数据质量是派生的基础数据准确和有意义的见解。数据质量有很多维度,包括完整性、准确性、有效性和一致性。必须积极设法提高最终的数据集的质量,这样的数据是可靠和值得信赖的信息业务用户。

  3. 设计自动定量

    标准ETL流程、业务报告和仪表板往往可预测资源需求的内存和计算。然而,新项目,季节性的任务,或模型等先进方法训练(预测,生产和维护)创建的资源需求峰值。对于一个组织来处理所有这些工作负载,它需要一个可伸缩的存储和计算平台。bob体育客户端下载根据需要添加新的资源必须是容易的,只有实际消费应该收费。一旦超过峰值,可以释放资源和成本相应降低。这是通常被称为水平扩展(节点数)和垂直扩展(节点)的大小。

  4. 测试恢复过程

    企业级灾难恢复策略对于大多数应用程序和系统需要一个评估优先级、功能,限制,和成本。一个可靠的灾难恢复方法定期测试工作负载如何失败,验证恢复过程。自动化可以用来模拟不同的故障或重现场景导致失败在过去。

  5. 自动化部署和工作负载

    自动化部署和工作负载lakehouse帮助这些流程标准化,消除人为错误,提高效率,并提供更大的可重复性。这包括使用“配置代码”来避免配置漂移,和“基础设施代码”自动化所需的所有配置lakehouse和云服务。

  6. 设置监控、报警和日志记录

    工作负载在lakehouse通常集成砖平台服务和外部的云服务,例如数据源或目标。bob体育客户端下载成功执行只能发生如果执行链中的每个服务正常运作。事实并非如此时,监控,报警,记录重要的检测和跟踪问题和理解系统行为。

下一个:可靠性的最佳实践

看到可靠性的最佳实践