设计模式在金融服务业中实时的见解
2022年5月20日 在工程的博客
个性化是一个竞争优势对于大多数每一个金融服务机构(FSIs的简称),从现在的银行,保险和投资管理平台。bob体育客户端下载虽然每个FSI都想提供智能和实时个性化客户基础往往掩盖或使用不完整的实现平台,导致陈旧见解,上市时间长,和损失的生产力由于需要胶水流,AI,一起和报告服务。bob体育客户端下载
这个博客将演示如何实时洞察奠定一个健壮的基础金融服务用例与砖Lakehouse平台,从OLTP数据库变化数据捕获(CDC)仪表板数据报告。bob体育客户端下载砖一直支持流媒体,本地平台。bob体育客户端下载最近发布的三角洲生活表(DLT)使得流媒体更简单和更强大的新的疾病预防控制中心功能。我们已经介绍了CDC使用指导DLT在最近的一次全面博客。在这个博客中,我们专注于为FSIs流和展示这些功能帮助简化新产品优势和内部FSIs的见解。
为什么流摄入至关重要
在进入技术细节之前,让我们讨论为什么砖最适合个性化的用例,特别是为什么实现流媒体应该是第一步。许多砖客户实施客户360个项目或full-funnel营销策略通常有以下基本要求。注意时态与时间相关的数据流。
投资策略基金会数据流和需求
- 用户应用程序保存和更新数据,如点击流,用户更新,和地理定位数据需要操作数据库
- 第三方行为数据增量地交付通过对象存储或可用云账户——在数据库中需要流媒体功能增量添加/更新/删除新的单一的事实来源的数据分析
- FSI有自动化流程导出所有数据库数据包括用户更新,点击流和用户行为数据到数据湖-需要变化数据捕获(CDC)摄入和处理工具,以及支持半结构化和非结构化数据
- 数据工程团队运行自动数据质量检查和确保数据是新鲜需要数据质量工具和本地流
- 数据科学团队使用数据下最好的行动或其他预测分析需要本地毫升能力
- 分析工程师和数据分析师将实现数据模型和使用数据报告要求仪表板集成和本地可视化
这里的核心需求的数据新鲜度报告、数据质量保持完整性,CDC摄入,ML-ready数据存储。在砖,这些直接映射到三角洲生活表(尤其是自动加载程序,期望和DLT的SCD I型API),砖的SQL,特色商店。自报告和AI-driven见解取决于稳定的高质量的数据流,流逻辑的第一步是主人。
考虑,例如,一个零售银行想要使用数字营销以吸引更多的客户,提高品牌忠诚度。可以识别关键客户购买模式和趋势与独家产品发送个性化的沟通提供了实时根据准确的客户需求和想要的。这是一个简单的,但一个无价的用例可能这只是流和变化数据捕获(CDC)——这两个功能需要捕捉消费者行为的变化和风险概况。
偷偷高峰的类型的数据我们在参考DLT处理管道,见下面的样品。注意数据的时间自然——所有银行或贷款系统以时间为顺序的事务数据,和一个值得信赖的数据意味着把后面到达和无序的数据来源。核心数据集显示包括事务,比如从一个支票存款帐户(图2),客户更新,而且行为数据(图3)可能会从上游交易或第三方数据跟踪。
开始使用流
在本节中,我们将演示一个简单的端到端数据流,这样就清楚如何捕捉连续变化从事务数据库并将它们存储在一个Lakehouse使用砖流功能。
我们的起点是嘲笑从从事务数据库中标准格式记录。下图提供了一个端到端数据如何流动的照片通过FSI的基础设施,包括许多种类的数据最终土地在三角洲湖,清洗,总结并在仪表板。有三个主要的过程在这个图中所提到的,在下一节中,我们将为每一个分解一些说明性的选项。
# 1 -数据摄入过程
本机结构流摄入的选择
随着数据,通过银行和保险客户提供应用程序,FSIs被迫设计策略在收集这些数据为下游消费团队不同的用例。这些企业面临的一个最基本的决定是如何捕获所有更改的应用程序服务,客户在生产:从用户、政策、贷款程序和信用卡交易。从根本上说,这些应用程序支持的事务数据存储,无论是MySQL数据库或更多非结构化数据驻留在NoSQL数据库如MongoDB。
幸运的是,有许多开放源码工具,比如Debeziubob下载地址m,能够摄取这些系统的数据。或者,我们看到许多客户编写自己的有状态的客户从事务性存储,读取的数据写入分布式消息队列像卡夫卡集群管理。砖与卡夫卡紧密集成,以及流媒体的直接连接的工作是推荐的模式数据时需要尽可能新鲜。这个设置使企业接近实时的见解,比如实时交叉销售建议损失或实时视图(资产负债表上现金奖励的效果)。模式如下:
- 建立疾病预防控制中心工具写记录改为卡夫卡
- 建立了卡夫卡水槽Debezium或其他疾病预防控制中心的工具
- 解析和处理变化数据捕获(CDC)记录在砖使用三角洲生活表,第一次登陆数据直接从卡夫卡到铜表中
注意事项
优点
- 数据到达不断延迟较低,所以消费者近乎实时地得到结果不依赖批量更新
- 完全控制流逻辑
- 三角洲生活表抽象集群管理了铜层,同时通过提供伸缩使用户能够有效地管理资源
- 三角洲生活表提供完整的数据沿袭和无缝的数据质量监测降落到铜层
缺点
- 直接从卡夫卡阅读需要一些解析代码时降落到青铜分段层
- 这依赖于额外的第三方CDC工具来从数据库中提取数据并反馈到消息存储,而不是使用一个工具,建立直接连接
合作伙伴摄入选项
第二个选项获得数据转换成连续的见解是砖的仪表板合作伙伴联系数据摄取合作伙伴的广泛网络,简化数据摄入成砖。bob体育外网下载对于本例,我们将通过三角洲摄取数据连接器创建的融合性的,一个健壮的卡夫卡提供集与砖。其他受欢迎的工具如Fivetran & Arcion数以百计的连接器核心交易系统。
两个选项抽象的核心逻辑阅读原始数据和降落在三角洲湖通过使用复制到命令。在此模式中,执行以下步骤:
- 建立疾病预防控制中心工具改变记录写入卡夫卡(和以前一样)
- 设置砖三角洲湖沉连接器汇合的云和钩这个相关的话题
这个选项的主要区别和本机流选项使用支流的三角洲湖沉连接器。看到的取舍对于理解模式选择。
注意事项
优点
- Low-code疾控中心通过合作伙伴工具支持高速复制来自on-prem遗留数据源的数据,数据库和主机(例如Fivetran, Arcion等直接连接到数据库)
- Low-code数据摄入数据平台团队熟悉流媒体合作伙伴(如支流卡夫bob体育客户端下载卡)和偏好土地数据为三角洲湖没有使用Apache火花™bob体育外网下载
- 集中管理的主题和水槽连接器汇合的云(类似Fivetran)
缺点
- 更少的控制数据转换和有效载荷的解析与火花和第三方库在最初的ETL阶段
- 砖集群配置所需的连接器
基于文件的摄入
许多数据供应商,包括移动远程信息技术提供商,蜱虫数据提供者和内部数据生产者——可能会交付给客户的文件。最佳处理增量文件摄入,砖自动加载程序、一个简单的自动流工具跟踪状态增量数据盘中提要等访问数据,trade-and-quote(聚合)数据,甚至替代数据集如销售收入预测盈利预测。
自动加载程序现在可以使用在三角洲地区的生活表管道,使您能够轻松地消耗数以百计的数据提要,而不必配置低层次的细节。自动加载程序的可伸缩性,轻松处理每天数以百万计的文件。此外,它是使用简单的上下文中δ生活表api(参见下面的SQL示例):
创建增量式生活表客户作为选择*从cloud_files (“/ databricks-datasets / retail-org客户/”,“csv”地图(“分隔符”、“t \”))
# 2 -变化数据捕获过程
改变数据采集解决方案是必要的,因为他们最终从核心系统保存更改到一个集中的数据存储没有施加额外的压力对事务数据库。丰富的数字数据流,捕捉客户行为变化最重要的个性化银行或索赔经验。
从技术的角度来看,我们使用Debezium强调疾病预防控制中心的工具。需要注意的重要的是序列的关键,这是Debeziumdatetime_updated
时代,三角洲生活表(DLT)用来整理记录,找到最新的变化和实时应用到目标表。再一次,因为用户的旅行时间中一个重要的组成部分,申请变更成
DLT的功能是一个优雅的解决方案,因为它抽象的复杂性需要更新用户状态- DLT仅仅以接近实时的更新状态一行命令在SQL或Python(说,实时更新客户偏好从3参加音乐会事件5,标志着一个个性化的机会提供)。
在下面的代码中,我们使用SQL流媒体功能允许我们指定一个连续流降落到一个表,我们申请更改最新的客户或总更新。参见下面完整的管道配置。完整的代码在这里。
这里有一些基本的术语需要注意:
- 的
流媒体
关键字表示一个表(如客户事务),接受增量插入/更新/删除从一个流源(如卡夫卡) - 的
生活
关键字显示数据集的内部,这意味着它已经保存使用DLT api和带有所有auto-managed功能(包括auto-compaction、集群管理、和管道配置)DLT提供 申请变更成
是DLT提供优雅的CDC API,处理无序和后面到达的数据通过内部维护状态,用户不需要手工编写额外的代码或SQL命令。
创建流媒体直播表customer_patterns_silver_copy(约束customer_id期望(customer_id是不零)在违反下降行)TBLPROPERTIES(“质量”=“银”)评论”洁净青铜客户视图(即什么将成为银)”作为选择json.payload.after。*,json.payload.op从流(live.customer_patterns_bronze);
申请更改成live.customer_patterns_silver从流(live.customer_patterns_silver_copy)键(customer_id)应用作为删除当人事处=“d”序列通过datetime_updated;
过程# 3 -总结客户偏好和简单的提供
帽子上面的简单摄入管道,我们现在强调砖SQL的仪表板显示什么类型的特性和见解与Lakehouse是可能的。所有的指标,细分,并提供以下生产实时数据提要的嘲笑这个见解管道。这些可以为每分钟更新,更重要的是,新鲜和ML-ready数据。指标需要注意客户生命周期,规定提供基于客户的账户历史和采购模式,甚至现金损失和破坏阈值。简单的报道实时数据可以突出关键指标,将通知如何释放一个特定的产品,如现金提供了。最后,报告仪表板(砖或BI伙伴如权力BI或表)可以表面这些见解;bob体育外网下载当AI的见解是可用的,他们可以很容易地添加到这样一个仪表板由于底层数据是集中在一个Lakehouse。
结论
这个博客强调数据摄入过程的多个方面,这是很重要的在金融服务支持各种个性化的用例。更重要的是,砖支持实时的用例本身,提供新鲜的见解和抽象api (三角洲生活表)来处理变化数据,支持Python和SQL的开箱即用。
有更多的银行和保险公司将更多的个性化客户的体验,它将支持该模型开发的关键但更重要的是,创建一个健壮的增量数据摄入的基础。最终,砖的Lakehouse平台是首屈一指的,它提供流媒体和AI-dbob体育客户端下载riven大规模个性化提供更高CSAT / NPS低CAC /生产,和更快乐和更有利可图的客户。
了解更BOB低频彩多关于δ住表方法应用于这个博客,发现所有的示例数据代码在GitHub库。