砖为Scala开发人员

本文提供了一个指导发展的笔记本,在砖使用Scala语言的工作。第一部分为常见的工作流和任务提供教程的链接。第二部分提供了链接到api、图书馆和关键工具。

开始的基本工作流程是:

导入代码和运行使用交互式数据砖笔记本:从文件中导入您自己的代码或者Git回购或试一试下面列出的教程。
一个集群上运行您的代码:要么创建一个自己的集群或者确保你有权限使用一个共享的集群。把你的笔记本集群和运行笔记本。

除此之外,可以拓展到更具体的主题:

教程

下面的教程提供了示例代码和笔记本学习常见的工作流。看到导入一个笔记本笔记本的例子说明导入到您的工作区。

教程:使用Apache Scala DataFrames火花
教程:三角洲湖Scala提供了例子。
Java和Scala快速入门帮助你学习跟踪机器学习的基本知识培训使用Scala中的MLflow运行。
使用XGBoost砖Scala提供了一个例子。

参考

以下部分列出关键特性和技巧来帮助你开始开发与Scala砖。

Scala API

这些链接提供一个介绍和参考Apache火花Scala API。

管理代码与笔记本和砖回购

砖的笔记本Scala的支持。这些笔记本提供Jupyter的功能相似,但随着添加如内置使用大数据可视化,Apache火花集成调试和性能监控、跟踪和MLflow集成机器学习实验。开始的导入一个笔记本。一旦你获得一个集群,你可以附加一个笔记本集群和运行笔记本。

提示

完全重置你的笔记本的状态,它可能是有用的重新启动内核。对于Jupyter用户来说,“重新启动内核”选项在Jupyter对应分离和重新砖的笔记本。重新启动内核笔记本,点击计算选择器在笔记本上附加工具栏和悬停在集群或SQL仓库列表中显示一个菜单。选择分离和重新。这分离的笔记本从集群和再植,重启的过程。

砖回购允许用户同步笔记本和其他文件和Git存储库。砖回购有助于代码版本控制和协作,它可以简化代码的完整存储库导入数据砖,查看过去的笔记本版本,与IDE集成开发。开始的克隆一个偏远的Git存储库。您可以打开或创建笔记本存储库的克隆,把笔记本一个集群,运行笔记本。

集群和库

砖集群为任何规模的集群提供了计算管理:从单节点集群到大型集群。您可以自定义集群硬件和库根据您的需要。数据科学家通常开始工作创建一个集群或使用现有的共享的集群。一旦你获得一个集群,你可以附加一个笔记本集群或运行工作在集群上。

对于小型工作负载,它只需要单一节点,数据科学家可以使用单节点集群为节约成本。
详细的提示,请参阅最佳实践:集群配置
管理员可以设置集群政策为了简化集群创造和引导。

砖集群使用砖运行时,它提供了开箱即用的许多流行的库,包括Apache火花,三角洲湖等等。你也可以安装其他第三方或自定义库使用笔记本和工作。

从默认的图书馆砖运行时。预先安装的库的完整列表,请参阅砖的运行时版本。
你也可以Scala库安装在一个集群。
更多细节,请参阅库。

可视化

砖Scala的笔记本已经为许多类型的内置支持可视化。您还可以使用遗留可视化:

互操作性

本节描述功能,支持Scala和SQL之间的互操作性。

工作

您可以自动化Scala如期工作负载或触发工作在砖。工作可以运行笔记本和罐子。

通过UI有关创建工作的详细信息,明白了创建一个工作。
的砖sdk允许您创建、编辑和删除工作以编程方式。
的砖CLI提供了一个方便的命令行界面自动化工作。

ide、开发工具和sdk

除了发展在砖笔记本的Scala代码,您可以使用集成开发环境(ide)开发外部如IntelliJ IDEA。外部发展环境和砖之间同步工作,有几个选项:

代码:你可以使用Git同步代码。看到Git与砖回购的集成。
库和工作:您可以创建图书馆外部和上传数据砖。这些库可以在进口砖笔记本,或者他们可以用来创造就业机会。看到库和创建和运行数据砖的工作。
远程机器上执行:你可以从你当地的IDE运行代码交互开发和测试。IDE可以在砖与砖执行大型的计算集群。例如,您可以使用IntelliJ IDEAdbx的砖实验室或与砖连接。

砖的sdk提供了一组支持自动化和集成与外部工具。您可以使用砖sdk管理资源集群和图书馆、代码和其他工作区对象,工作负载和工作等。看到砖sdk。

在ide的更多信息,开发工具,和sdk,看到开发工具和指导。

额外的资源

的砖学院提供自学和教师指导课程在许多话题。
知识库