Databricks Runtime 7.3 LTS for Genomics(不支持)

Databricks于2020年9月发布了这张图片。它于2020年10月宣布为长期支持(LTS)。

Databricks Runtime 7.3 LTS for Genomics是一个版本Databricks Runtime 7.3 LTS针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载

重要的

此文档已退役,可能无法更新。本内容中提及的产品、服务或技术已不再受支持。

Databricks Genomics运行时已弃用。有关开放bob下载地址源码的对等物,请参见repos Forgenomics-pipelines而且发光.作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。

有关Databricks Runtime弃用策略和计划的详细信息,请参见支持Databricks运行时发布和支持计划

有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游

有关从Databricks Runtime迁移的帮助。请参见“Databricks Runtime 7.3 LTS”Databricks RuntimeX迁移指南

新功能

Databricks Runtime 7.3 LTS for Genomics是建立在Databricks Runtime 7.3 LTS之上的。有关Databricks Runtime 7.3 LTS中的新特性的信息,请参见Databricks Runtime 7.3 LTS发行说明。

支持读取未压缩或zstd压缩基因型的BGEN文件

Glow现在支持读取BGEN文件包含使用zstandard的未压缩或压缩的SNP块概率数据ZSTD_compress ()函数,除了现有的支持读取使用zlib的压缩数据之外压缩()函数。

改进

变型升降性能

执行变体liftOver现在使用Glow的速度快了12倍。

更快的大文件上传到ABFS

将大文件(如VCF、BGEN和BAM)写入Azure Blob文件系统现在快了2倍。

DNASeq管道在自动伸缩集群上的性能

DNASeq管道现在更好地调整了自动定量集群

管道默认输出bgzip压缩的vcf

所有基因组管道现在默认使用bgzip压缩输出vcf。默认情况下,输出vcf以前是未压缩的。要配置此配置,请更改vcfCompressionCodec管道选项来自bgzf

重构

TNSeq管道重命名为MutSeq

肿瘤/正常管道已从TNSeq重命名为MutSeq。

以下部分列出了Databricks Runtime 7.3 LTS for Genomics中包含的库,这些库与Databricks Runtime 7.3中包含的库不同。

包装库

图书馆

版本

亚当

0.32.0

GATK

4.1.4.1

Hadoop-bam

7.9.2

samtools

1.9

VEP

96