使用Unity Catalog数据进行Python ML模型训练

Unity Catalog允许您对表应用细粒度的安全性,并从任何语言安全地访问它们,同时与Databricks中的其他机器学习组件无缝交互。本文展示了如何使用Python使用Unity Catalog中的数据来训练机器学习模型。

需求

  • 您的Databricks帐户必须在保费计划

  • 您必须能够创建集群或访问运行在Unity Catalog兼容访问模式下的集群。

创建Databricks Machine Learning集群

按照以下步骤创建一个单用户Databricks机器学习集群,该集群可以访问Unity Catalog中的数据。

  1. 点击计算图标计算

  2. 点击创建集群

    1. 点击毫升

    2. 选择11.1 ML (Scala 2.12.14, Spark 3.3.0)或者更高,或者11.1 ML (GPU, Scala 2.12.14, Spark 3.3.0)或更高版本。

  3. 点击访问模式.集单用户共享这取决于用途。

    共享集群可以由多个用户共享,但只支持SQL和Python工作负载。

    如果要使用Python、Scala或R运行工作负载,请将访问模式设置为单用户。单用户集群也可以运行SQL工作负载。集群只能由单个用户使用(默认情况下,单个用户是集群的所有者),其他用户不能附加到集群。

    有关每种访问模式中可用的特性的详细信息,请参见什么是集群访问模式?

  4. 点击创建集群

创建目录

按照以下步骤创建一个新的目录,您的机器学习团队可以在其中存储他们的数据资产。

  1. 在分配了metastore的工作空间中,以metastore管理员身份登录,或以用户身份登录创建目录特权。

  2. 创建一个笔记本或打开Databricks SQL编辑器。

  3. 2 .执行以下命令创建毫升目录:

    创建目录毫升

    在创建编目时,一个名为默认的在其中自动创建。

  4. 授予访问毫升目录和ml.default模式,以及创建表和视图的能力ml_team组。要包括所有帐户级别的用户,可以使用组账户用户

    格兰特使用目录毫升毫升团队格兰特使用创建模式毫升默认的ml_team

现在,任何用户ml_team组可以运行以下示例笔记本。

导入示例笔记本

首先,导入下面的笔记本。

机器学习与统一目录

在新标签页打开笔记本

导入笔记本:

  1. 在笔记本旁边,单击复制导入链接

  2. 在工作空间中,单击工作空间的图标工作空间

  3. 单击文件夹后的下脱字符号,然后按进口

  4. 点击URL,然后粘贴您复制的链接。

  5. 导入的笔记本将出现在所选文件夹中。双击记事本名称打开。

  6. 在笔记本的顶部,选择Databricks Machine Learning集群以将笔记本附加到该集群。

笔记本分为几个高级部分:

  1. 设置。

  2. 从CSV文件读取数据并将其写入Unity Catalog。

  3. 将数据加载到Pandas数据帧中并清理。

  4. 训练一个基本分类模型。

  5. 调优超参数并优化模型。

  6. 将结果写入新表并与其他用户共享。

要运行单元格,请单击运行图标运行.要运行整个笔记本,请单击运行所有