公司博客上

通过向可扩展的、开放的Lakehouse架构迈进,推动Northwestern Mutual (Insightsbob体育客户端下载 Platform)的转型

通过Madhu Kotian

2021年7月15日 公司博客上

分享这篇文章

本文由西北互惠银行工程副总裁(投资产品数据、客户关系管理、应用程序和报告)Madhu Kotian撰写。


数字化转型已经成为当代大多数大数据企业计划的前沿和中心,特别是在那些遗留问题严重的公司。数字转换的基础组件之一是数据及其相关的数据存储。160多年来,西北互惠银行一直致力于帮助家庭和企业实现财务安全。收入超过310亿美元,拥有460多万客户和9300多名金融专业人士,在各种来源上拥有如此海量数据的公司并不多。

在当今这个时代,数据摄入是一个挑战,因为组织要处理数以百万计的数据点,这些数据点来自不同的格式、时间框架和不同的方向,数量前所未有。我们希望为分析数据做好准备。今天,我很兴奋地分享我们的新方法,以改变和现代化我们的数据摄取过程、调度过程和数据存储旅程。我们学到的一件事是,有效的方法是多方面的,这就是为什么除了技术安排之外,我还将介绍我们的团队计划。

所面临的挑战

在我们开始转换之前,我们与业务合作伙伴一起工作,以真正理解我们的技术限制,并帮助我们为业务用例塑造问题陈述。bob体育外网下载

我们发现的业务痛点是缺乏集成数据,客户和业务数据来自不同的内部和外部团队和数据源。我们意识到实时数据的价值,但对生产/实时数据的访问有限,这些数据可以使我们及时做出业务决策。我们还了解到,业务团队构建的数据存储会导致数据竖井,从而导致数据延迟问题、数据管理成本增加和不必要的安全约束。

此外,我们目前的状态还存在技术挑战。随着需求的增加和额外的数据需求,我们遇到了基础设施可伸缩性、数据延迟、管理数据竖井的成本、数据大小和容量限制以及数据安全问题的限制。随着这些挑战的增加,我们知道我们有很多要承担,需要找到合适的合作伙伴来帮助我们完成转型之旅。bob体育外网下载

解决方案分析

我们需要以数据为导向,以增强竞争力,更好地为客户服务,优化内部流程。我们探索了各种选择,并进行了几次POCs,以选择最终的建议。以下是我们前进战略的必备要素

  1. 为我们的数据摄取、数据管理和分析需求提供全方位的解决方案
  2. 一个现代化的数据平台,可以有bob体育客户端下载效地支持我们的开发人员和业务分析师使用SQL进行分析
  3. 能够支持S3之上的ACID事务并启用基于角色的安全性的数据引擎
  4. 一个可以有效保护我们的PII/PHI信息的系统
  5. 可以bob体育客户端下载根据数据处理和分析需求自动扩展的平台

我们的遗留基础设施是基于MSBI Stack的。我们使用SSIS进行摄取,SQL Server用于数据存储,Azure Analysis Service用于表格模型,PowerBI用于仪表板和报告。尽管该平台最初满足了业务需bob体育客户端下载求,但随着数据量和数据处理需求的增加,我们在扩展方面遇到了挑战,并限制了我们的数据分析预期。对于额外的数据需求,由于加载延迟和特定业务需求的数据存储造成的数据延迟问题导致了数据竖井和数据蔓延。

由于数据分布在多个数据存储中,安全性成为一个挑战。我们有大约300个ETL工作,这些工作从我们的日常工作中花费了超过7个小时。任何更改或新开发的上市时间大约是4到6周(取决于复杂性)。

西北互惠银行在其数据现代化计划之前的遗留数据分析堆栈。
图1:遗留体系结构

在评估了市场上的多种解决方案后,我们决定继续使用Databricks来帮助我们在开放的湖屋架构上交付一个集成的数据管理解决方案。

在Apache Spark™之上开发的Databricks使我们能够使用Python来构建数据摄取和元数据管理的自定义框架。它为我们提供了使用笔记本进行特别分析和其他数据发现的灵活性。Databricks Delta Lake(建立在数据湖之上的存储层)为我们提供了实现各种数据库管理功能(ACID事务、元数据治理、时间旅行等)的灵活性,包括实现所需的安全控制。Databricks解决了管理/扩展集群的难题,并有效地响应了工程师和业务用户被压抑的需求。

西北互惠银行在其数据现代化计划之前的遗留数据分析堆栈。
图2:使用Databricks的体系结构

迁移方法和入职资源

我们从一小组工程师开始,并将他们分配到现有scrum团队的虚拟团队中。他们的目标是执行不同的POC,以推荐的解决方案为基础,开发最佳实践,并转换回各自的团队以帮助入职。利用现有的团队成员对我们更有利,因为他们拥有现有的遗留系统知识,理解当前的摄取流/业务规则,并且精通至少一种编程知识(数据工程+软件工程知识)。这个团队首先训练自己使用Python,了解Spark和Delta的复杂细节,并与Databricks团队密切合作以验证解决方案/方法。当团队致力于形成未来状态时,其余的开发人员致力于交付业务优先级。

由于大多数开发人员都是MSBI Stack工程师,我们的行动计划是交付一个对我们的开发人员、业务用户和现场顾问来说没有摩擦的数据平台。bob体育客户端下载

  • 我们构建了一个包含所有数据加载和转换需求的摄取框架。它有内置的安全控制,维护我们源系统的所有元数据和秘密。摄取过程接受一个包含源、目标和所需转换的JSON文件。它允许简单和复杂的转换。
  • 对于调度,我们最终使用了风流,但考虑到DAG的复杂性,我们在风流的基础上构建了自己的自定义框架,它接受一个包含作业信息及其相关相互依赖关系的YAML文件。
  • 为了使用Delta管理模式级别的更改,我们构建了自己的自定义框架,该框架可以自动化不同的数据库类型操作(DDL),而不需要开发人员对数据存储有简单的访问权限。这也帮助我们在数据存储上实现不同的审计控制。

同时,该团队还与我们的安全团队合作,以确保我们理解并满足数据安全的所有标准(传输加密、静止加密和列级加密,以保护PII信息)。

一旦建立了这些框架,队列团队部署了一个端到端流(源到目标,包含所有转换),并在PowerBI上生成了一组指向Delta Lake的新报告/仪表板。我们的目标是测试端到端流程的性能,验证数据并从现场用户那里获得反馈。我们根据性能/验证测试的反馈和结果逐步改进产品。

同时,我们为开发人员建立了培训指南和操作指南。不久之后,我们决定将队列团队成员转移到各自的团队,同时保留一些人继续支持平台基础设施(DevOps)。bob体育客户端下载每个scrum团队都负责管理并向业务交付各自的功能/特性集。一旦团队成员回到他们各自的团队,他们就开始执行任务,调整团队的速度,以包括迁移工作的积压。团队领导给出了具体的指导和适当的目标,以满足不同Sprint/计划增量的迁移目标。队列组中的团队成员现在是常驻专家,他们帮助团队登上新平台。bob体育客户端下载他们随时可以回答任何特别问题或协助。

随着我们逐步构建我们的新平台,我们保留了旧平台进行验证和验证。bob体育客户端下载

成功的开始

整个转换大约花了我们一年半的时间,考虑到我们必须构建所有的框架,管理业务优先级,管理安全预期,重组我们的团队和迁移平台,这是一个相当大的壮举。bob体育客户端下载总体加载时间从7小时显著下降到2小时。我们的上市时间大约是1 - 2周,比4-6周缩短了很多。这是一个重大的改进,我知道它将在几个方面扩展到我们的业务。

我们的旅程还没有结束。随着平台的不断完善,我们的下一个任务将是拓展湖屋模式。bob体育客户端下载我们正在努力将平台迁移到E2,并部署Databricks SQLbob体育客户端下载。我们正在制定战略,为我们的业务用户提供一个自助服务平台,以执行他们的特别分析,并使他们能够携带自己的数据,并能够对bob体育客户端下载我们的集成数据进行分析。我们了解到,使用一个开放、统一、可扩展的平台使我们受益匪浅。bob体育客户端下载随着我们的需求和能力的增长,我们知道Databricks是一个强大的合作伙伴。

了解更多西北互惠银行的莱克豪斯之旅


关于Madhu Kotian

Madhu Kotian是西北互惠银行工程副总裁(投资产品数据、CRM、应用程序和报告)。他在信息技术领域拥有超过25年的经验,在数据工程、人员管理、项目管理、架构、设计、开发和使用敏捷实践维护方面拥有丰富的经验和专业知识。他也是数据仓库方法论和数据集成与分析实现方面的专家。

免费试用Databricks
看到所有公司博客上的帖子