发光

发光是一个开源项bob下载地址目中创建的砖和Regeneron遗传学中心之间的协作。在发光特性的更多信息,请参阅发光的文档

同步发光笔记本到您的工作空间中

  1. 叉的发光github回购

  2. 克隆你叉砖工作空间使用回购

  3. 在笔记本电脑文档/ / _static来源

发光的笔记本的位置

建立一个发光的环境

上安装发光砖集群通过码头工人砖容器服务

你可以找到在容器ProjectGlow Dockerhub页面。这些设置环境与发光和其他在砖运行时库,基因组学(弃用)。使用projectglow / databricks-glow: < databricks-runtime-version >,用一个可用的替代标记砖运行时版本。

或安装这两种集群库:

  • Maven:io.projectglow: glow-spark3_2.12: <版本>

  • PyPI:glow.py = = <版本>

重要的

  • 如果你安装发光作为一个独立的PyPi包,安装它集群图书馆,而不是notebook-scoped图书馆使用%皮普神奇的命令。

  • 确保Maven坐标和PyPI包都包括在集群上,每个匹配的版本。

  • 安装最新版本的发光砖上运行时,没有砖基因(弃用),运行时的发光v0.6默认安装。

  • 不要安装冰雹集群上发光,除非从一个中提取基因型冰雹矩阵表

开始发光

砖建议您运行测试笔记本电脑测试数据提供的笔记本电脑之前,真正的数据。这些笔记本测试夜间发光码头工人容器的最新版本。

重要的

  • 检查点后三角洲湖摄取或转换的基因型数据。

设置自动工作

在您运行示例的笔记本,然后运用真实数据的代码,你准备管道通过使用自动化的步骤工作

重要的

  • 从小事做起。个体变异,实验样品或染色体。

  • 步骤在您的管道可能需要不同的集群配置,这取决于类型的计算。

提示

  • 使用compute-optimized虚拟机读变异来自云对象存储的数据。

  • 使用三角洲缓存加速虚拟机数据查询变体。

  • 对基因关联研究使用memory-optimized虚拟机。

    • 集群与小型机器有更好的性价比比相比,大型机器。

  • 发光管变压器运行在支持并行深度学习的工具gpu

下面的示例集群配置运行单个染色体遗传关联研究。编辑notebook_path< databricks-runtime-version >根据需要。

工作创建——json文件glow-create-job.json

glow-create-job.json:

{“名称”:“glow_gwas”,“notebook_task”:{“notebook_path”:“/用户/ < user@organization.com > /发光/ docs /源/ _static /笔记本电脑/大专/ gwas-quantitative”,“base_parameters”:{“allele_freq_cutoff”:0.01}},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“现货”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“driver_node_type_id”:“r5d.4xlarge”,“num_workers”:32,“spark_conf”:{“spark.sql.execution.arrow.maxRecordsPerBatch”:One hundred.},“docker_image”:{“url”:“projectglow / databricks-glow: < databricks-runtime-version >”}}}