创建您的第一个工作流与砖的工作

这篇文章演示了一个砖工作协调任务阅读和处理样本数据集。在这个快速入门,你:

  1. 创建一个新的笔记本和添加代码来检索一个示例数据集包含受欢迎的婴儿名字。

  2. 保存DBFS的样本数据集。

  3. 创建一个新的笔记本,从DBFS添加代码来读取数据,过滤,并显示结果。

  4. 创建一个新的工作,使用笔记本电脑配置两个任务。

  5. 运行工作,查看结果。

需求

你必须有集群创建权限创建一个集群或工作权限一个通用的集群。

创建一个笔记本

检索并保存数据

创建一个笔记本检索示例数据并将其保存DBFS:

  1. 去你的砖着陆页面并点击新图标在侧边栏并选择笔记本。砖创建并打开一个新的空白笔记本在你的默认文件夹。默认语言是你最近使用的语言,和笔记本自动附加到你最近使用的计算资源。

  2. 如果有必要,更改默认语言Python

  3. 复制下面的Python代码粘贴到第一个单元格的笔记本。

    进口请求响应=请求得到(“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”)csvfile=响应内容解码(“utf - 8”)dbutilsfs(“dbfs: / FileStore / babynames.csv”,csvfile,真正的)

读取和显示过滤后的数据

创建一个笔记本读和现在的数据过滤:

  1. 去你的砖着陆页面并点击新图标在侧边栏并选择笔记本。砖创建并打开一个新的空白笔记本在你的默认文件夹。默认语言是你最近使用的语言,和笔记本自动附加到你最近使用的计算资源。

  2. 如果有必要,更改默认语言Python

  3. 复制下面的Python代码粘贴到第一个单元格的笔记本。

    babynames=火花格式(“csv”)选项(“头”,“真正的”)选项(“inferSchema”,“真正的”)负载(“dbfs: / FileStore / babynames.csv”)babynamescreateOrReplaceTempView(“babynames_table”)=火花sql(“从babynames_table选择不同(年)”)抽样地图(λ:(0])收集()排序()dbutils小部件下拉(“年”,“2014”,(str(x)x])显示(babynames过滤器(babynames一年= =dbutils小部件得到(“年”)))

创建一个工作

  1. 点击工作图标工作流在侧边栏。

  2. 点击创建工作按钮

    任务选项卡显示了创建任务对话框。

    创建第一个任务对话框
  3. 取代添加一个名称为你的工作…对你的工作名称。

  4. 任务名称字段中,输入一个名称的任务;例如,retrieve-baby-names

  5. 类型下拉,选择笔记本

  6. 使用文件浏览器来找到您创建第一个笔记本,点击笔记本名称,点击确认

  7. 点击创建任务

  8. 点击添加任务按钮下面您刚才创建的任务添加另一个任务。

  9. 任务名称字段中,输入一个名称的任务;例如,filter-baby-names

  10. 类型下拉,选择笔记本

  11. 使用文件浏览器找到创建第二个笔记本,点击笔记本名称,点击确认

  12. 点击添加参数。在关键字段中,输入一年。在价值字段中,输入2014年

  13. 点击创建任务

运行作业

立即运行任务,点击现在运行按钮在右上角。您还可以通过单击运行工作运行选项卡并单击现在运行活跃的运行表。

查看运行细节

  1. 单击运行选项卡并单击该链接的运行活跃的运行表或完成运行60天(过去)表。

  2. 单击任务的输出和细节。例如,单击filter-baby-names任务视图的输出和运行细节过滤器的任务:

    视图过滤名字结果

使用不同的参数

重新运行工作和过滤婴儿名字的不同:

  1. 点击蓝色向下插入符号旁边现在运行并选择现在有了不同的参数运行或者点击现在有了不同的参数运行活跃的运行表。

  2. 价值字段中,输入2015年

  3. 点击运行