发光
发光是一个开源项bob下载地址目中创建的砖和Regeneron遗传学中心之间的协作。在发光特性的更多信息,请参阅发光的文档。
同步发光笔记本到您的工作空间中
叉的发光github回购。
克隆你叉砖工作空间使用回购。
在笔记本电脑
文档/ / _static来源
。
建立一个发光的环境
上安装发光砖集群通过码头工人砖容器服务。
你可以找到在容器ProjectGlow Dockerhub页面。这些设置环境与发光和其他在砖运行时库,基因组学(弃用)。使用projectglow / databricks-glow: < databricks-runtime-version >
,用一个可用的替代标记砖运行时版本。
或安装这两种集群库:
Maven:
io.projectglow: glow-spark3_2.12: <版本>
PyPI:
glow.py = = <版本>
重要的
如果你安装发光作为一个独立的PyPi包,安装它集群图书馆,而不是notebook-scoped图书馆使用
%皮普
神奇的命令。确保Maven坐标和PyPI包都包括在集群上,每个匹配的版本。
安装最新版本的发光砖上运行时,没有砖基因(弃用),运行时的发光v0.6默认安装。
设置自动工作
在您运行示例的笔记本,然后运用真实数据的代码,你准备管道通过使用自动化的步骤工作。
重要的
从小事做起。个体变异,实验样品或染色体。
步骤在您的管道可能需要不同的集群配置,这取决于类型的计算。
提示
使用compute-optimized虚拟机读变异来自云对象存储的数据。
使用三角洲缓存加速虚拟机数据查询变体。
对基因关联研究使用memory-optimized虚拟机。
集群与小型机器有更好的性价比比相比,大型机器。
发光管变压器运行在支持并行深度学习的工具gpu。
下面的示例集群配置运行单个染色体遗传关联研究。编辑notebook_path和< databricks-runtime-version >
根据需要。
砖工作创建——json文件glow-create-job.json
glow-create-job.json
:
{“名称”:“glow_gwas”,“notebook_task”:{“notebook_path”:“/用户/ < user@organization.com > /发光/ docs /源/ _static /笔记本电脑/大专/ gwas-quantitative”,“base_parameters”:{“allele_freq_cutoff”:0.01}},“new_cluster”:{“spark_version”:“< databricks-runtime-version > .x-scala2.12”,“aws_attributes”:{“可用性”:“现货”,“first_on_demand”:1},“node_type_id”:“r5d.4xlarge”,“driver_node_type_id”:“r5d.4xlarge”,“num_workers”:32,“spark_conf”:{“spark.sql.execution.arrow.maxRecordsPerBatch”:One hundred.},“docker_image”:{“url”:“projectglow / databricks-glow: < databricks-runtime-version >”}}}