Databricks Runtime 6.6 for Genomics(不支持)

Databricks于2020年5月发布了这张图片。

Databricks运行时6.6 for Genomics是一个版本Databricks Runtime 6.6(不支持)针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载

有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游

新功能

Databricks Runtime 6.6 for Genomics是在Databricks Runtime 6.6的基础上构建的。有关Databricks Runtime 6.6中的新功能的信息,请参见Databricks Runtime 6.6(不支持)发行说明。

GFF3读者

版本发光包含在Databricks Runtime 6.6 for Genomics中可以读取GFF3文件。DataFrame模式是从当前属性推断出来的。我们加上了这个功能在开源bob下载地址中。

自定义参考基因组支持

我们现在支持自定义参考基因组DNASeq肿瘤/正常,联合基因分型管道。

每个样本管道超时

DNASeqRNASeq,肿瘤/正常管道现在有一个选项来设置每个样本的超时。

BAM导出选项

DNASeqRNASeq,肿瘤/正常管道现在可以选择导出到BAM。对齐的读可以导出为单个BAM或分片BAM。

清单斑点

的清单DNASeqRNASeq肿瘤/正常,联合基因分型管道现在可以通过blob和路径提供。如果清单是通过blob提供的,那么所有路径都必须是绝对路径。

改进

变量规范化灵活性

发光variant normalizer现在接受压缩的引用序列,比如block-gzip压缩的FASTA文件。我们加上了这个改进在开源bob下载地址中。

管道变压器允许空分区

发光管道转换器现在忽略空分区,因此用户不再需要合并输入数据帧。我们加上了这个改进在开源bob下载地址中。

打包的库版本文档

的BAMs和vcf输出DNASeqRNASeq肿瘤/正常,联合基因分型管道现在在它们的头文件中记录相关的库版本。

重复标记性能

对象的读对齐阶段复制标记DNASeq管道现在更快,需要更少的内存。

其他的变化

genotypeGivenAlleles而且emitAllAlleles选项已从联合基因分型管道。

Databricks Runtime 6.6 for Genomics中包含的以下库与Databricks Runtime 6.6中包含的库不同。

升级库

  • GATK: 4.0.11.0至4.1.4.1

包装库

图书馆

版本

亚当

0.30.0

GATK

4.1.4.1

Hadoop-bam

7.9.2

冰雹

0.2.40

samtools

1.9

VEP

96