使用Unity Catalog数据进行Python ML模型训练
Unity Catalog允许您对表应用细粒度的安全性,并从任何语言安全地访问它们,同时与Databricks中的其他机器学习组件无缝交互。本文展示了如何使用Python使用Unity Catalog中的数据来训练机器学习模型。
需求
您的Databricks帐户必须在保费计划.
您必须能够创建集群或访问运行在Unity Catalog兼容访问模式下的集群。
创建Databricks Machine Learning集群
按照以下步骤创建一个单用户Databricks机器学习集群,该集群可以访问Unity Catalog中的数据。
点击计算.
点击创建集群.
点击毫升.
选择11.1 ML (Scala 2.12.14, Spark 3.3.0)或者更高,或者11.1 ML (GPU, Scala 2.12.14, Spark 3.3.0)或更高版本。
点击访问模式.集单用户或共享这取决于用途。
共享集群可以由多个用户共享,但只支持SQL和Python工作负载。
如果要使用Python、Scala或R运行工作负载,请将访问模式设置为单用户。单用户集群也可以运行SQL工作负载。集群只能由单个用户使用(默认情况下,单个用户是集群的所有者),其他用户不能附加到集群。
有关每种访问模式中可用的特性的详细信息,请参见什么是集群访问模式?.
点击创建集群.
创建目录
按照以下步骤创建一个新的目录,您的机器学习团队可以在其中存储他们的数据资产。
在分配了metastore的工作空间中,以metastore管理员身份登录,或以用户身份登录
创建目录
特权。创建一个笔记本或打开Databricks SQL编辑器。
2 .执行以下命令创建
毫升
目录:创建目录毫升;
在创建编目时,一个名为
默认的
在其中自动创建。授予访问
毫升
目录和ml.default
模式,以及创建表和视图的能力ml_team
组。要包括所有帐户级别的用户,可以使用组账户用户
.格兰特使用在目录毫升来`毫升团队`;格兰特使用,创建在模式毫升.默认的来`ml_team`;
现在,任何用户ml_team
组可以运行以下示例笔记本。
导入示例笔记本
首先,导入下面的笔记本。
导入笔记本:
在笔记本旁边,单击复制导入链接.
在工作空间中,单击工作空间.
单击文件夹后的,然后按进口
点击URL,然后粘贴您复制的链接。
导入的笔记本将出现在所选文件夹中。双击记事本名称打开。
在笔记本的顶部,选择Databricks Machine Learning集群以将笔记本附加到该集群。
笔记本分为几个高级部分:
设置。
从CSV文件读取数据并将其写入Unity Catalog。
将数据加载到Pandas数据帧中并清理。
训练一个基本分类模型。
调优超参数并优化模型。
将结果写入新表并与其他用户共享。
要运行单元格,请单击运行.要运行整个笔记本,请单击运行所有.