跳转到主要内容
公司博客上

介绍了下一代数据科学的工作区

分享这篇文章

在今天的火花+人工智能峰会2020年,我们推出了下一代的砖数据科学工作空间:一个开放的和统一的现代数据团队的经验。

现有的解决方案使数据团队选择从三个糟糕的选择。给数据科学家的自由使用任何开源工具在他们的笔记本电脑上没有提供一个明确的路径生产和治理和合规风险。只是云托管这些工具解决一些数据的隐私和安全问题,但不生产提供一个清晰的路径,也提高生产力和协作。最后,最健壮的、可伸缩的DevOps生产环境会阻碍创新和实验数据科学家放缓下来。

下一代数据科学工作区砖导航这些权衡提供一个开放的和统一的现代数据团队的经验。具体地说,它将向您提供以下好处:

  • 开放和协作笔记本在一个安全的和可扩展的平台:bob体育客户端下载砖的前提是建立在开发人员的环境中需要开放和协作。因为砖是根植于开源的,你选择的工具提供在一个开放和协作平台能够运bob下载地址行所有你在规模庞大的大数据分析的工作负载而帮助你满足安全性和遵从性需求。bob体育客户端下载与原生支持Jupyter笔记本格式,下一代数据科学工作区消除之间的权衡砖提供的开放标准和协作功能。
  • 最佳开发环境Git-based协作和再现性:这个行业已经利用健壮的代码管理的最佳实践在复杂的环境中,基于Git。我们进一步整合与Git生态系统平台,帮助把这些最佳实践数据bob体育客户端下载工程和数据科学、再现性变得越来越重要。为了促进这种集成,我们引入一个新的概念叫做砖项目。这将允许数据团队把所有项目依赖关系通过Git存储库同步。
  • 低摩擦CI / CD管道从实验到生产部署:新的API基于上述表面Git-based项目功能,我们引入新的功能更无缝集成开发工作流自动化CI / CD管道。这将允许数据团队采取科学和ML代码从实验到生产更快,利用可伸缩的生产工作,MLflow模型注册表和新模式服务功能——所有在一个开放和统一的平台上,可以扩展以满足任何用例。bob体育客户端下载

我们非常兴奋并将这些创意带到统一数据分析平台。bob体育客户端下载在过去的几年里,我们不断聚集来自成千上万的用户的反馈来帮助塑造我们的路线图和设计这些特性。为了启用这个新体验,我们将发布新功能阶段,如下所述。

可在预览:Git-based砖项目

首先,我们引入一个新的Git-based能力叫砖项目帮助数据团队跟踪所有项目依赖项包括笔记本、代码、数据文件、参数,并通过Git存储库库依赖关系(支持Azure DevOps, GitHub BitBucket都以及新增支持GitLab和这些Git的本地企业/服务器产品供应商)。

砖项目允许从业者的砖上创建新的或克隆现有Git存储库进行他们的工作,快速的最新实验数据,方便地访问他们需要的可伸缩的计算资源来完成他们的工作,同时满足安全性和遵从性需求。

砖项目允许数据团队快速创建作为一个项目或克隆现有Git存储库。< br / >
图1:砖项目允许数据团队快速创建作为一个项目或克隆现有Git存储库。

这也意味着,探索性数据分析、建模实验和代码审查可以通过一个健壮的、合作的和可再生的方法。简单地创建一个新的分支,编辑代码在开放和协作笔记本,承诺,推动改变。

玩这个视频,请点击这里,接受饼干

图2:Databrick Git-based项目的新对话框允许开发者之间切换分支,创建新的分支,将改变从一个远程存储库,阶段文件,承诺,推动改变。

此外,这也将有助于加速从实验到生产的路径通过启用数据工程师和科学家们遵循最佳实践代码版本控制和CI / CD。作为新项目的一部分功能,一套新的api允许开发者建立健壮的自动化数据科学和ML代码从实验到生产速度更快。

Git-based项目和相关的api,新砖数据科学的工作区使路径从实验到生产更容易,更快和更可靠。< br / >
图3:Git-based项目和相关的api,新砖数据科学的工作区使路径从实验到生产更容易,更快和更可靠。

因此,设置CI / CD管道管道管理数据,使关键的仪表板,或反复训练和部署新的ML模式生产从来没有这种无缝的。数据工程师和科学家使用Git-based项目特性确保交付给他们的代码存储库在一个简单的和及时,Git自动化可以接,提高生产系统的可靠性和可用性通过执行测试代码部署到生产环境之前项目砖。

这使得各种用例,执行探索性数据分析,根据最近的数据集创建仪表板,模型和部署他们批培训毫升、流或实时推理——所有在一个开放的和统一的平台,可以扩展到满足要求的业务需求。bob体育客户端下载

即将到来:项目范围与Conda环境配置

Git-based交叉的项目和环境管理是能够存储环境配置和代码。我们会把砖为机器学习与项目运行时自动检测存在的环境配置文件(例如,需求。txt或conda.yml)和激活一个环境局限于您的项目。这意味着,你将不再需要担心安装库依赖关系,如NumPy、自己。

砖之间的集成运行时和项目允许数据团队自动检测环境规范的文件(如让)和安装库依赖关系。< br / >
图4:砖之间的集成运行时和项目允许数据团队自动检测环境规范的文件(如让)和安装库依赖关系。

超越你使用你的笔记本电脑,砖确保,一旦为你的项目创建一个环境,所有工人的自动定量集群始终启用了相同的环境。

即将到来:砖笔记本的编辑器支持Jupyter笔记本

砖笔记本的编辑器已经提供了协作功能,如co-presence, co-editing和评论,所有原生云开发环境中的访问控制管理和最高的安全标准。统一数据团队,砖笔记本的编辑器还支持Python编程语言之间的切换,R, SQL和Scala,所有在同一笔记本。今天,砖笔记本的编辑器使用成千上万的数据工程师、科学家和机器学习工程师日常的数据。

带来的实际好处砖笔记本编辑器来更广泛的受众,我们将支持Jupyter笔记本原生格式在砖上,为您提供能够编辑Jupyter笔记本直接在砖笔记本的编辑器。因此,你将不再有协作特性和开源标准比如Jupyter之间的权衡。

支持开放Jupyter笔记本与砖笔记本提供数据编辑团队协作特性标准文件格式。< br / >
图5:支持开放Jupyter笔记本与砖笔记本提供数据编辑团队协作特性标准文件格式

然而,如果你选择的工具是Jupyter,你还是可以编辑相同的笔记本使用Jupyter直接嵌入在砖,如下所示。

支持开放Jupyter JupyterLab笔记本是嵌入到砖工作区。< br / >
图6:支持开放Jupyter JupyterLab笔记本是嵌入到砖工作区。

下一个步骤

你可以看的官方声明和演示克莱门斯Mewald和劳伦·里奇火花+人工智能峰会:

玩这个视频,请点击这里,接受饼干

作为共享在我们今天的主题,我们一直在测试这些功能在私人预览了一段时间,现在兴奋开放访问现有的客户预览。报名在这里请求访问。我们期待你的反馈!

免费试着砖
看到所有公司博客上的帖子