Scala开发人员的数据库
本文提供了使用Scala语言在Databricks中开发笔记本和作业的指南。第一部分提供了常见工作流和任务的教程链接。第二部分提供了api、库和关键工具的链接。
入门的基本工作流程是:
导入代码并使用交互式Databricks笔记本运行它:从文件或Git回购中导入自己的代码,或尝试下面列出的教程。
在集群上运行代码:创建自己的集群,或者确保拥有使用共享集群的权限。将笔记本连接到集群并运行该笔记本。
除此之外,你还可以拓展到更具体的话题:
教程
下面的教程提供了示例代码和笔记本,以了解常见的工作流程。看到导入笔记本电脑有关如何将笔记本示例导入工作空间的说明。
教程:三角洲湖提供Scala示例。
快速入门Java和Scala帮助您学习在Scala中使用MLflow跟踪机器学习训练运行的基础知识。
在Databricks上使用XGBoost提供了一个Scala示例。
参考
下面的小节列出了一些关键特性和技巧,可以帮助您开始使用Scala进行Databricks开发。
使用笔记本和Databricks Repos管理代码
砖的笔记本Scala的支持。这些笔记本提供了类似于Jupyter的功能,但增加了一些功能,比如使用大数据的内置可视化,用于调试和性能监控的Apache Spark集成,以及用于跟踪机器学习实验的MLflow集成。从以下开始导入笔记本电脑.一旦您可以访问集群,您就可以附上笔记本到集群和运行笔记本.
提示
要完全重置笔记本的状态,可以重新启动内核。对于Jupyter用户,Jupyter中的“重启内核”选项对应于在Databricks中卸载和重新加载笔记本。要重新启动笔记本中的内核,单击左上角的集群下拉菜单,然后单击分离和重新连接.这将从集群中分离笔记本并重新连接它,这会重新启动进程。
砖回购允许用户将笔记本和其他文件与Git存储库同步。Databricks Repos有助于代码版本控制和协作,它可以简化将完整的代码存储库导入Databricks,查看过去的笔记本版本,并与IDE开发集成。从以下开始克隆远程Git存储库.然后,您可以使用存储库克隆打开或创建笔记本,附上笔记本到集群,和运行笔记本.
集群和库
砖集群为任何规模的集群提供计算管理:从单节点集群到大型集群。您可以根据需要定制集群硬件和库。数据科学家通常通过以下方式开始工作创建集群或者使用现有的共享的集群.一旦您可以访问集群,您就可以附上笔记本到集群或运行作业集群上。
Databricks集群使用Databricks运行时,该运行时提供了许多开箱即用的流行库,包括Apache Spark、Delta Lake等等。您还可以安装额外的第三方或自定义库,用于笔记本和作业。
中的默认库开始砖运行时.有关预安装库的完整列表,请参见Databricks运行时发布.
你也可以在集群中安装Scala库.
详情请参见库.
工作
您可以按照计划或触发自动执行Scala工作负载工作在砖。乔布斯可以运行笔记本电脑和jar。
ide、开发工具和api
除了在Databricks笔记本中开发Scala代码外,您还可以使用集成开发环境(ide)(如IntelliJ IDEA)进行外部开发。要在外部开发环境和Databricks之间同步工作,有以下几个选项:
代码:可以使用Git同步代码。看到Git与Databricks Repos的集成.
图书馆和工作:可以在外部创建库,并上传到Databricks。这些库可以导入到Databricks笔记本中,也可以用于创建作业。看到库而且创建、运行和管理Databricks作业.
远程机器执行:您可以从本地IDE运行代码进行交互开发和测试。IDE可以与Databricks通信,在Databricks集群上执行大型计算。例如,您可以使用IntelliJ IDEAdbx由Databricks Labs开发或与砖连接.
Databricks提供了一整套支持自动化和与外部工具集成的REST api。您可以使用api来管理集群和库、代码和其他工作空间对象、工作负载和作业等资源。看到REST API(最新).
有关ide、开发人员工具和api的更多信息,请参见开发人员工具和指导.