实时同步本地文件到远程工作区

请注意

本文涵盖了dbx由Databricks Labs提供,Databricks不通过客户技术支持渠道提供支持。问题和特性请求可以通过问题网页databrickslabs / dbx在GitHub上回购。

通过使用,您可以对本地开发机器上的文件与Databricks工作区中的相应文件执行实时同步更改dbx由Databricks Labs开发。这些工作空间文件可以在DBFS或在砖回购

实时文件同步dbx(亦称dbx同步)在快速代码开发场景中非常有用。例如,您可以使用本地集成开发环境(IDE)来实现生产力特性,如语法高亮显示、智能代码补全、代码检测以及测试和调试。然后您可以立即转到您的工作空间并运行更新后的代码。

你可以使用dbx同步就其本身而言,自动化的工作,或使用IDE

dbx同步开发工作流程

有两个开发工作流dbx同步一个是DBFS,另一个是Databricks Repos。

典型的开发工作流dbx同步DBFS为:

  1. 确定一个本地目录,其中包含要同步到DBFS的文件。

  2. 在DBFS中确定您希望本地目录与之同步(或让其同步)的路径dbx同步创建一个默认的DBFS路径)。

  3. 运行dbx同步dbfs将本地目录同步到DBFS路径。dbx同步开始监视本地目录中的任何文件更改。

  4. 根据需要更改本地目录中的文件。dbx同步实时地将这些更改应用到DBFS路径中的相应文件。

典型的开发工作流dbx同步而Databricks Repos是:

  1. 属性创建存储库Git提供者Databricks Repos支持的,如果您还没有可用的存储库。

  2. 克隆你的回购到你的Databricks工作空间。

  3. 将您的回购复制到本地开发机器中。

  4. 运行dbx同步回购将本地克隆的回购与工作区克隆的回购关联。dbx同步开始监视本地目录中的任何文件更改。

  5. 根据需要更改本地克隆回购中的文件。dbx同步应用这些变化到相应的文件在Databricks回购实时。

  6. 定期将工作区中克隆的repo中的更新文件推送到Git提供程序,以便repo与Git提供程序保持同步。

重要的

dbx同步只执行从本地开发机器到远程工作空间的文件更改的单向实时同步。因此,Databricks不建议您在Databricks工作区中对被监视的文件进行更改dbx同步.如果您必须进行这样的工作空间发起的文件更改,那么您还必须执行以下操作:

  • 对于DBFS中的文件更改,手动对本地文件进行相应的更改。

  • 对于Databricks Repos中的文件更改,请将文件更改从工作区推到Git提供程序。然后,在您的本地开发机器上,从Git提供程序中提取这些文件更改。

需求

如果你想用的话dbx同步使用Databricks Repos,您的Databricks工作空间必须满足以下要求:

在您的本地开发机器上,必须安装以下软件:

  • Python3.8或以上版本。要检查Python是否已安装,以及检查已安装的Python版本,请运行python——版本在您的终端或PowerShell。

    python的版本

    请注意

    一些装置python可能需要您使用python3而不是python.如果是,请代入pythonpython3贯穿本文。

  • 皮普.检查是否皮普是否安装,并检查您的安装皮普版本,运行皮普——版本python- m皮普——版本

    皮普,版本#还是……Python -m PIP——version

    请注意

    一些装置皮普可能需要您使用pip3而不是皮普.如果是,请代入皮普pip3贯穿本文。

  • dbx0.8.0或以上版本。检查是否dbx是否安装,并检查您的安装dbx版本,运行dbx——版本.安装dbx从Python包索引(PyPI),运行皮普安装dbxpython- m皮普安装dbx.(dbx包括dbx同步.)

    #检查dbx是否安装,检查dbx版本号。dbx——版本#安装dbx。PIP安装DBX#还是……Python -m PIP安装DBX

    请注意

    欲了解更多有关dbx,请参阅dbx由Databricks Labs开发dbx文档

  • 数据库命令行设置和文档,与身份验证.安装过程中会自动安装Databricks命令行dbx.此身份验证可以在您的本地开发机器上的以下一个或两个位置设置:

    • DATABRICKS_HOST而且DATABRICKS_TOKEN环境变量(从Databricks CLI version 0.8.0开始)。

    • 在数据库里配置概要文件在你的.databrickscfg文件。

    dbx分别在这两个位置查找身份验证凭据。dbx只使用它找到的第一组匹配凭据。

    请注意

    如果你使用.databrickscfg文件,dbx同步在此文件中查找名为默认的默认情况下。要指定不同的配置文件,请使用——简介选项时,可以运行dbx同步命令,在本文后面介绍。

    dbx不支持使用. netrc用于认证的文件。

  • 如果你想用的话dbx同步使用Databricks Repos,可以使用Git提供程序在本地复制存储库,虽然不是必需的。要执行本地克隆,请参考Git提供程序的文档。

使用DBFSdbx同步

  1. 从本地开发机器上的终端或PowerShell,切换到Databricks工作区中包含要同步到DBFS的文件的目录。

  2. 运行dbx同步命令将本地目录同步到工作区中的DBFS,如下所示。(别忘了点号(),它表示您的当前目录。

    DBX同步DBFS——source。

    提示

    若要指定不同的源目录,请替换点()用不同的路径。

    请注意

    如果错误错误:没有这样的命令“同步”出现,您的安装dbx可能已经过时了。要修复此问题,请运行皮普安装——升级dbx = = <版本>python- m皮普安装——升级dbx = =版本,在那里<版本>最新版本是dbx.此版本号可以在用于dbx的PyPI网页

    PIP安装—升级dbx= =<版本>#还是……Python -m PIP install——upgradedbx= =版本
  3. dbx同步开始将当前本地目录中的文件与工作空间中以下DBFS路径中的文件同步。dbx同步通过打印确认目标基地路径后面是DBFS路径,例如:

    / tmp /用户/ < your-Databricks-username > / < local-directory-name >

    提示

    要指定不同的用户名或DBFS路径,请指定——用户而且——桌子选项,分别在运行时dbx同步

  4. 根据需要对本地文件进行更改。

    重要的

    您必须保持您的终端或PowerShell打开dbx同步继续同步。如果您关闭终端或PowerShell,dbx同步停止监视文件更改并停止同步。若要恢复文件更改同步,请从头开始重复此过程。

  5. 根据需要,在工作空间的DBFS中的前面路径中验证文件更改。

使用Databricks回购与dbx同步

  1. 从本地开发机器上的终端或PowerShell,切换到包含带有Git提供程序的存储库克隆的根目录。

  2. 在Databricks工作区中,确定要将本地克隆的Repo同步到的Databricks Repo的名称。控件可以找到此回购名称回购图标。数据科学与工程机器学习视图的侧栏。

  3. 在本地开发机器上运行dbx同步命令将您的本地克隆存储库同步到您的工作区中的Databricks Repos,如下所示,替换< your-repo-name >在Databricks Repos中注明您的回购名称。(别忘了点号(),它表示您的当前目录。

    DBX同步repo -d ——source。

    提示

    若要指定不同的源目录,请替换点()用不同的路径。

    请注意

    如果错误错误:没有这样的命令“同步”出现,您的安装dbx可能已经过时了。要修复此问题,请运行皮普安装——升级dbx = = <版本>python- m皮普安装——升级dbx = =版本,在那里<版本>最新版本是dbx.此版本号可以在用于dbx的PyPI网页

    PIP安装—升级dbx= =<版本>#还是……Python -m PIP install——upgradedbx= =版本
  4. dbx同步开始将本地克隆存储库中的文件与工作区中的Databricks Repos中的文件同步。dbx同步通过打印确认目标基地路径后面是Databricks Repos路径,例如:

    /回购/ < your-Databricks-username > / < your-repo-name >

    提示

    要指定不同的用户名或回购名称,请指定——用户而且——dest-repo选项,分别在运行时dbx同步

  5. 根据需要对本地文件进行更改。

    重要的

    您必须保持您的终端或PowerShell打开dbx同步继续同步。如果您关闭终端或PowerShell,dbx同步停止监视文件更改并停止同步。若要恢复文件更改同步,请从头开始重复此过程。

  6. 根据需要,在工作区中的Databricks Repos中验证您的文件更改。

额外的资源