集群库

集群库可以被运行在集群上的所有笔记本使用。您可以直接从公共存储库(如PyPI或Maven)安装集群库,使用以前安装的工作区库,或使用init脚本。

在集群上安装库

在集群上安装库有两种主要方式:

  • 安装一个工作区图书馆它已经上传到工作区。

  • 安装仅用于特定集群的库。

此外,如果库需要自定义配置,则可能无法使用上面列出的方法安装它。相反,您可以使用init脚本在创建集群时运行。

请注意

在集群上安装库时,已经附加到该集群的笔记本不会立即看到新的库。你必须首先分离然后重新接上笔记本到集群。

方法在集群上安装库,除了本文介绍的方法之外Databricks Terraform提供商而且databricks_library

工作区图书馆

请注意

Databricks按照安装在集群上的顺序处理所有工作区库。如果库之间存在依赖关系,则可能需要注意集群上的安装顺序。

要安装工作区中已经存在的库,可以从集群UI或库UI开始:

集群

  1. 点击计算图标计算在侧栏中。

  2. 单击集群名称。

  3. 单击选项卡。

  4. 点击安装新

  5. 在库源按钮列表中,选择工作空间

  6. 选择一个工作区库。

  7. 点击安装

  8. 配置库安装在所有集群上。

    1. 单击库。

    2. 选择在所有集群上自动安装复选框。

    3. 点击确认

图书馆

  1. 转到包含库的文件夹。

  2. 单击库名称。

  3. 做以下其中一件事:

    • 要配置要安装在所有集群上的库,请选择在所有集群上自动安装复选框,然后单击确认

      重要的

      此选项不会在运行Databricks Runtime 7.0及以上版本的集群上安装库。

    • 选中要在其上安装库的集群旁边的复选框,然后单击安装

库安装在集群上。

Cluster-installed图书馆

您可以在特定的集群上安装库,而不必将其作为工作区库使用。

在集群上安装库。

  1. 点击计算图标计算在侧栏中。

  2. 单击集群名称。

  3. 单击选项卡。

  4. 点击安装新

  5. 创建对象的方法之一工作区图书馆.点击之后创建时,库安装在集群上。

Init脚本

如果库需要自定义配置,则可能无法使用工作区或集群库接口安装它。相反,您可以使用init脚本

下面是一个init脚本的例子,它使用pip在Databricks Runtime集群初始化时安装Python库。

# !/bin/bash/databricks/python/bin/pip安装astropy

从集群卸载库

请注意

从集群卸载库时,只有在重新启动集群时才会删除该库。在重新启动集群之前,已卸载库的状态将显示为卸载等待重新启动

要卸载一个库,可以从集群或库开始:

集群

  1. 点击计算图标计算在侧栏中。

  2. 单击集群名称。

  3. 单击选项卡。

  4. 选中要从中卸载库的集群旁边的复选框,单击卸载,然后确认.“状态”变为卸载等待重新启动

图书馆

  1. 转到包含库的文件夹。

  2. 单击库名称。

  3. 选中要从中卸载库的集群旁边的复选框,单击卸载,然后确认.“状态”变为卸载等待重新启动

  4. 单击集群名称,进入集群详细信息页面。

点击重新启动而且确认卸载库。从集群的Libraries选项卡中删除库。

查看集群上安装的库

  1. 点击计算图标计算在侧栏中。

  2. 单击集群名称。

  3. 单击选项卡。对于每个库,选项卡显示名称和版本、类型、安装状态,如果上传,则为源文件。

更新集群安装的库

若要更新集群安装的库,请卸载旧版本的库并安装新版本。