大规模Productionize和自动化您的数据平台bob体育客户端下载
2020年3月16日, 在公司博客上
数据驱动的创新不再是可选的,在今天的市场保持竞争力。公司,可以将数据、分析和ML-based产品市场很快就会打败他们的竞争。虽然很多公司有流线型的CI / CD(持续集成和交付)为应用程序开发过程,很少有定义良好的数据和ML产品开发过程等。
这就是为什么它是至关重要的生产就绪,可靠和可伸缩的数据管道的分析仪表盘和ML经理使用的应用程序。随着新功能集的发展,数据科学家,数据分析师和数据工程师需要一致的工具和环境,帮助他们迅速迭代思想。这些思想的进步,他们需要被测试,从开发到生产迅速。一旦在生产、ML模型需要不断监测和分析效率,稳定,和规模。
如果你想加快创造新的和创新的产品数据,您将需要克服以下严重依赖于自动化的挑战。
缺乏一致的和协作开发环境
新团队时旋转在一个组织建立数据的产品或服务,他们需要的基础设施,工具和企业治理策略设置才可以开始。我们称此为一个完全配置的数据环境。这需要与多个团队的协调和谈判的组织,可能需要几天(如果不是几周或几个月)。最理想的是能得到这样一个完全配置几分钟内按需数据环境。
缺乏一致的Devops过程
大量的代码是由团队来管理数据本身写的——就像代码数据摄入,数据质量、数据清理和数据转换。前需要所有这些数据可以利用下游业务智能和机器学习的团队。机器学习流本身非常迭代。和各种各样的数据量变化迅速,因此需要更改代码处理数据管道,和火车机器学习模型。像任何其他应用程序开发的代码库,这需要纪律的CI / CD管道,以确保质量,一致性和幂等性。理想情况下,数据工程师和科学家,比如应用程序开发工程师——可能专注于代码的迭代,让数据平台和工具应用正确的质量检验关运输生产的代码。bob体育客户端下载
有限的数据管道和ML模型可见性性能
环境可以改变数据在多个维度——底层数据,数据转换的代码在数据管道,并使用数据模型构建。这些会影响应用程序的行为和性能依赖于它。乘以团队部署成千上万的应用程序和服务。缩放的问题和监控的健康和性能这样的应用程序变得复杂。DevOps团队支持数据平台的组织需要自动化的工具,帮助数bob体育客户端下载据团队规模作为他们的工作量增大,利用监控工具能够确保这些应用程序的健康状况。
完全数据环境中按需配置
部署工作空间——一个全球组织应该能够为他们的团队的数据平台需要提供数据环境最接近他们的数据团队,更重要的是,共同部署数据所在的bob体育客户端下载服务。作为组织的数据平台的领导bob体育客户端下载者,你应该能够在多个云服务这些团队的需求和在多个地区。一旦选定一个区域,下一步是部署完全隔离的环境内的独立的团队组织。工作区能代表这种环境互相隔离团队同时仍然允许团队成员合作。这些工作空间可以创建的自动化,通过调用工作区REST api直接或通过客户端工作区配置工具使用这些api。
连接数据源,下一步是对环境连接数据源,包括越来越多的数据源在工作区中。为了访问这些数据源进行正确的权限级别的数据环境,适当的权限和角色可以设置使用标准化infrastructure-as-code工具像起程拓殖。
提供用户和组下一步是提供用户和组内使用一个基于标准的工作区SCIM API。这可以进一步自动化使用身份提供者(IdP)时,像蔚蓝的Active Directory, Okta,等等,通过设置国内流离失所者和砖之间的自动同步。这使得无缝管理用户在一个标准的位置,国内流离失所者。
——创建集群和集群政策现在用户和数据配置,您需要设置计算,这样用户可以运行他们的工作负载来处理数据。的集群对象代表了全面管理,自动伸缩单元计算的工作区。通常,组织有两种模式的实例化集群。首先,长时间运行的,静态集群用于交互式工作负载,数据科学家在他们的笔记本电脑进行探索性分析。第二,集群是短暂的,因为计划或按需自动创建工作。静态集群由管理员设置的过程中创建数据环境使用集群api。这确保了集群符合政策,如使用正确的为vm实例类型,使用正确的运行时,使用正确的标签,等等。你还可以配置集群使用正确的库库api最终用户,所以不必担心。瞬态集群的定义是在运行时创建的,所以政策只能在运行时应用。自动化这可以使用集群政策,帮助你定义任何集群的参数,可以在工作区中创建的任何用户,从而确保这些集群符合你的政策。
授予的权限,接下来你想给你的用户和组的权限对象的数据环境,这样他们就可以做他们的工作。Databrick支持细粒度的访问控制集群等对象,乔布斯,笔记本,池等等。这些可以自动使用权限API(预览)。
CI / CD管道
开发环境,现在您已经交付一个完全配置数据环境对产品(或服务)团队在你的组织中,数据科学家已经开始研究它。他们正在使用的数据的科学笔记本接口,他们熟悉做探索性分析。数据工程师也开始工作的环境和他们喜欢的环境中工作的ide。他们会更喜欢连接他们最喜欢的IDE和数据环境的熟悉的界面,允许他们使用IDE代码,与此同时,使用数据环境的力量运行通过单元测试,在上下文的IDE。
任何严格的工程团队将他们的代码从开发人员的桌面生产,通过各种质量检验关,反馈循环运行。首先,团队需要连接他们的数据环境,他们的代码库等服务git代码库是正确版本控制和团队可以在代码库中合作。
暂存/集成环境虽然数以百计的数据科学家和工程师在开发阶段的数据环境中工作时将一组变更到集成测试阶段,需要更多的控制。通常情况下,你想要更少的用户可以访问的集成测试环境中测试持续运行和结果被报道和变化进一步提升。为了做到这一点,团队需要另一个工作空间来表示他们的‘表演’环境。另一个完全配置环境可以很快适应这支球队。与流行的持续集成工具,如詹金斯的集成或Azure Devops服务,使得团队不断测试更改。与更多的开发人员和工作负载,改变代码的速度增加。需要更快的运行测试。这也需要很快底层基础设施可用。砖池允许举行的基础设施处于随时可用的状态,防止失控的成本不间断的基础设施。有了这些工具,团队可以实现他们的‘表演’环境持续集成工作流。
生产环境,最终,当代码需要部署到生产环境——类似于完全配置的登台环境——完全可以快速配置生产环境配置。这是一个更锁定的环境下,只有少数用户的访问。用他们的标准部署工具,利用定义的REST api的平台,团队可bob体育客户端下载以将工件部署到生产环境。
一旦设置CI / CD管道,团队可以快速地转移他们的变化从一个开发者的桌面生产、大规模测试时,使用熟悉的工具来运送高品质的产品。
简化操作
随着时间的推移,随着处理的数据量的增加,数据团队需要扩展他们的工作负载。DevOps团队需要确保数据平台可以扩展无缝的工作负载。bob体育客户端下载DevOps团队可以利用自动伸缩功能在数据平台提供一个无缝的自动化规模为这些工作负bob体育客户端下载载。此外,可以在多个云平台,多个地区bob体育客户端下载每个云(AWS,Azure)允许DevOps团队提供一个大规模平台数据团队,无论他们是世界上操作。bob体育客户端下载
DevOps负责支持数据平台被跨组织的团队。bob体育客户端下载他们想确保数据环境的三层是按预期工作,基础设施、平台和应用程序。bob体育客户端下载底部是基础设施,用于执行数据处理的计算工作。与等工具的集成神经节和Datadog提供可见性核心基础设施指标包括CPU、内存和磁盘,使用等。上面一层基础设施平台的数据。bob体育客户端下载对象(如集群和工作使DevOps团队自动化分析和机器学习工作流。性能指标对这些对象可以使用REST api来使用集群事件和工作和插入选择组织的监视工具。最后一层是应用程序,特别是Spark-based应用程序。可见性监控数据使用火花日志从Apache火花应用使得团队排除故障和高效运行的工作负载的性能回归和设计优化。
自动化接口启用DevOps团队在CI / CD管道应用一致的工具和集成性能监控不仅在生产,而且在低水平环境中。它还允许团队调试更改并测试性能监控工作流本身的变化达到生产之前。
采取创新市场更快
AI /有机ML-driven创新发生在每一个企业都在所有的经济领域。企业可以实现这些创新的潜能只有在这些创新开发,测试和productionized迅速所以他们的客户可以使用它们。为了做到这一点,组织需要一个可靠的、全球范围内,易于使用的数据平台,使CI / CD AI /毫升应用程序,可以迅速组织中的任何一支球队。bob体育客户端下载
BOB低频彩了解更多关于其他步骤创建一个简单的旅程,可伸缩的,生产使用的数据平台,准备下面的博客bob体育客户端下载