实时同步本地文件到远程工作区
请注意
本文涵盖了dbx
由Databricks Labs提供,Databricks不通过客户技术支持渠道提供支持。问题和特性请求可以通过问题网页databrickslabs / dbx在GitHub上回购。
通过使用,您可以对本地开发机器上的文件与Databricks工作区中的相应文件执行实时同步更改dbx由Databricks Labs开发。这些工作空间文件可以在DBFS或在砖回购.
实时文件同步dbx
(亦称dbx同步
)在快速代码开发场景中非常有用。例如,您可以使用本地集成开发环境(IDE)来实现生产力特性,如语法高亮显示、智能代码补全、代码检测以及测试和调试。然后您可以立即转到您的工作空间并运行更新后的代码。
你可以使用dbx同步
就其本身而言,自动化的工作,或使用IDE.
dbx同步
开发工作流程
有两个开发工作流dbx同步
一个是DBFS,另一个是Databricks Repos。
典型的开发工作流dbx同步
DBFS为:
确定一个本地目录,其中包含要同步到DBFS的文件。
在DBFS中确定您希望本地目录与之同步(或让其同步)的路径
dbx同步
创建一个默认的DBFS路径)。运行
dbx同步dbfs
将本地目录同步到DBFS路径。dbx同步
开始监视本地目录中的任何文件更改。根据需要更改本地目录中的文件。
dbx同步
实时地将这些更改应用到DBFS路径中的相应文件。
典型的开发工作流dbx同步
而Databricks Repos是:
属性创建存储库Git提供者Databricks Repos支持的,如果您还没有可用的存储库。
克隆你的回购到你的Databricks工作空间。
将您的回购复制到本地开发机器中。
运行
dbx同步回购
将本地克隆的回购与工作区克隆的回购关联。dbx同步
开始监视本地目录中的任何文件更改。根据需要更改本地克隆回购中的文件。
dbx同步
应用这些变化到相应的文件在Databricks回购实时。定期将工作区中克隆的repo中的更新文件推送到Git提供程序,以便repo与Git提供程序保持同步。
重要的
dbx同步
只执行从本地开发机器到远程工作空间的文件更改的单向实时同步。因此,Databricks不建议您在Databricks工作区中对被监视的文件进行更改dbx同步
.如果您必须进行这样的工作空间发起的文件更改,那么您还必须执行以下操作:
对于DBFS中的文件更改,手动对本地文件进行相应的更改。
对于Databricks Repos中的文件更改,请将文件更改从工作区推到Git提供程序。然后,在您的本地开发机器上,从Git提供程序中提取这些文件更改。
需求
如果你想用的话dbx同步
使用Databricks Repos,您的Databricks工作空间必须满足以下要求:
一个克隆建议使用Git提供程序来安装存储库,虽然不是必需的。配置对工作区文件的支持如果您还没有这样做的话,请首先为您的工作空间设置。
在您的本地开发机器上,必须安装以下软件:
Python3.8或以上版本。要检查Python是否已安装,以及检查已安装的Python版本,请运行
python——版本
在您的终端或PowerShell。python的版本
请注意
一些装置
python
可能需要您使用python3
而不是python
.如果是,请代入python
与python3
贯穿本文。皮普.检查是否
皮普
是否安装,并检查您的安装皮普
版本,运行皮普——版本
或python- m皮普——版本
.皮普,版本#还是……Python -m PIP——version
请注意
一些装置
皮普
可能需要您使用pip3
而不是皮普
.如果是,请代入皮普
与pip3
贯穿本文。dbx0.8.0或以上版本。检查是否
dbx
是否安装,并检查您的安装dbx
版本,运行dbx——版本
.安装dbx
从Python包索引(PyPI),运行皮普安装dbx
或python- m皮普安装dbx
.(dbx
包括dbx同步.)#检查dbx是否安装,检查dbx版本号。dbx——版本#安装dbx。PIP安装DBX#还是……Python -m PIP安装DBX
请注意
欲了解更多有关
dbx
,请参阅dbx由Databricks Labs开发和dbx文档.的数据库命令行设置和文档,与身份验证.安装过程中会自动安装Databricks命令行
dbx
.此身份验证可以在您的本地开发机器上的以下一个或两个位置设置:在
DATABRICKS_HOST
而且DATABRICKS_TOKEN
环境变量(从Databricks CLI version 0.8.0开始)。在数据库里配置概要文件在你的
.databrickscfg
文件。
dbx
分别在这两个位置查找身份验证凭据。dbx
只使用它找到的第一组匹配凭据。请注意
如果你使用
.databrickscfg
文件,dbx同步
在此文件中查找名为默认的
默认情况下。要指定不同的配置文件,请使用——简介
选项时,可以运行dbx同步
命令,在本文后面介绍。dbx
不支持使用. netrc用于认证的文件。如果你想用的话
dbx同步
使用Databricks Repos,可以使用Git提供程序在本地复制存储库,虽然不是必需的。要执行本地克隆,请参考Git提供程序的文档。
使用DBFSdbx同步
从本地开发机器上的终端或PowerShell,切换到Databricks工作区中包含要同步到DBFS的文件的目录。
运行dbx同步命令将本地目录同步到工作区中的DBFS,如下所示。(别忘了点号(
.
),它表示您的当前目录。DBX同步DBFS——source。
提示
若要指定不同的源目录,请替换点(
.
)用不同的路径。请注意
如果错误
错误:没有这样的命令“同步”
出现,您的安装dbx
可能已经过时了。要修复此问题,请运行皮普安装——升级dbx = = <版本>
或python- m皮普安装——升级dbx = =版本
,在那里<版本>
最新版本是dbx
.此版本号可以在用于dbx的PyPI网页.PIP安装—升级dbx= =<版本>#还是……Python -m PIP install——upgradedbx= =版本
dbx同步
开始将当前本地目录中的文件与工作空间中以下DBFS路径中的文件同步。dbx同步
通过打印确认目标基地路径
后面是DBFS路径,例如:/ tmp /用户/ < your-Databricks-username > / < local-directory-name >
提示
要指定不同的用户名或DBFS路径,请指定
——用户
而且——桌子
选项,分别在运行时dbx同步
.根据需要对本地文件进行更改。
重要的
您必须保持您的终端或PowerShell打开
dbx同步
继续同步。如果您关闭终端或PowerShell,dbx同步
停止监视文件更改并停止同步。若要恢复文件更改同步,请从头开始重复此过程。根据需要,在工作空间的DBFS中的前面路径中验证文件更改。
使用Databricks回购与dbx同步
从本地开发机器上的终端或PowerShell,切换到包含带有Git提供程序的存储库克隆的根目录。
在Databricks工作区中,确定要将本地克隆的Repo同步到的Databricks Repo的名称。控件可以找到此回购名称回购图标。数据科学与工程或机器学习视图的侧栏。
在本地开发机器上运行dbx同步命令将您的本地克隆存储库同步到您的工作区中的Databricks Repos,如下所示,替换
< your-repo-name >
在Databricks Repos中注明您的回购名称。(别忘了点号(.
),它表示您的当前目录。DBX同步repo -d
——source。 提示
若要指定不同的源目录,请替换点(
.
)用不同的路径。请注意
如果错误
错误:没有这样的命令“同步”
出现,您的安装dbx
可能已经过时了。要修复此问题,请运行皮普安装——升级dbx = = <版本>
或python- m皮普安装——升级dbx = =版本
,在那里<版本>
最新版本是dbx
.此版本号可以在用于dbx的PyPI网页.PIP安装—升级dbx= =<版本>#还是……Python -m PIP install——upgradedbx= =版本
dbx同步
开始将本地克隆存储库中的文件与工作区中的Databricks Repos中的文件同步。dbx同步
通过打印确认目标基地路径
后面是Databricks Repos路径,例如:/回购/ < your-Databricks-username > / < your-repo-name >
提示
要指定不同的用户名或回购名称,请指定
——用户
而且——dest-repo
选项,分别在运行时dbx同步
.根据需要对本地文件进行更改。
重要的
您必须保持您的终端或PowerShell打开
dbx同步
继续同步。如果您关闭终端或PowerShell,dbx同步
停止监视文件更改并停止同步。若要恢复文件更改同步,请从头开始重复此过程。根据需要,在工作区中的Databricks Repos中验证您的文件更改。
额外的资源
databrickslabs / dbxGitHub上的存储库