冰雹
冰雹图书馆是一个建立在Apache火花分析大型基因组数据集。
重要的
创建一个集群
安装通过码头工人和冰雹砖容器服务。
容器设置一个冰雹环境,看到ProjectGlow Dockerhub页面。使用projectglow / databricks-hail: < hail-version >
,用一个可用的替代标记冰雹的版本。
创建一个工作集群与冰雹
设置的砖CLI。
创建一个集群使用冰雹集装箱码头工人设置标签所需的
< hail-version >
。下面给出了一个示例的工作定义,请编辑notebook_path砖运行时
< databricks-runtime-version >
和< hail-version >
。
砖工作创建——json文件hail-create-job.json
hail-create-job.json
:
{“名称”:“hail-job”,“notebook_task”:{“notebook_path”:“/用户/ < user@organization.com > /冰雹/ docs / hail-tutorial”},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“现货”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“num_workers”:32,“docker_image”:{“url”:“projectglow / databricks-hail: < hail-version >”}}}