冰雹

冰雹图书馆是一个建立在Apache火花分析大型基因组数据集。

重要的

当你使用冰雹0.2.65以上,使用Apache火花(砖运行时的8 3.1版本。9. x或者x)
在砖安装冰雹运行时,而不是砖运行时的基因(弃用)
冰雹是不支持的凭据透传(遗留)
冰雹是不支持的发光,除非出口从冰雹发光

创建一个集群

安装通过码头工人和冰雹砖容器服务。

容器设置一个冰雹环境,看到ProjectGlow Dockerhub页面。使用projectglow / databricks-hail: < hail-version >,用一个可用的替代标记冰雹的版本。

创建一个工作集群与冰雹
1. 设置的砖CLI。
2. 创建一个集群使用冰雹集装箱码头工人设置标签所需的< hail-version >。
3. 下面给出了一个示例的工作定义,请编辑notebook_path砖运行时< databricks-runtime-version >和< hail-version >。
```
砖工作创建——json文件hail-create-job.json
```
hail-create-job.json:

             {“名称”:“hail-job”,“notebook_task”:{“notebook_path”:“/用户/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“现货”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“num_workers”:32,“docker_image”:{“url”:“projectglow / databricks-hail: < hail-version >”}}}
            

在一个笔记本使用冰雹

在大多数情况下,冰雹在砖相同冰雹文档工作。然而,有一些修改,对于砖环境是必要的。

初始化冰雹

当初始化冰雹,通过预先创建的SparkContext和马克幂等的初始化。此设置允许多个砖笔记本使用相同的冰雹的上下文。

请注意

启用skip_logging_configuration保存对滚动司机log4j日志输出。这个设置只在冰雹0.2.39以上支持。

              进口冰雹作为霍奇金淋巴瘤霍奇金淋巴瘤。初始化(sc,幂等=真正的,安静的=真正的,skip_logging_configuration=真正的)
             

显示散景图

冰雹使用散景图书馆创建情节。的显示内置函数散景在砖不工作。显示冰雹所产生的散景图,您可以运行一个命令:

              从bokeh.embed进口组件,file_html从bokeh.resources进口CDN情节=霍奇金淋巴瘤。情节。柱状图(太。DP,范围=(0,30.),垃圾箱=30.,标题=DP直方图的,传说=“迪拜”)html=file_html(情节,CDN,“图”)displayHTML(html)
             

看到散景为更多的信息。