Databricks Runtime 7.0 for Genomics(不支持)

Databricks于2020年6月发布了这张图片。

Databricks Runtime 7.0 for Genomics是一个版本Databricks Runtime 7.0(不支持)针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载

有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游

新功能

Databricks Runtime 7.0 for Genomics是建立在Databricks Runtime 7.0之上的。有关Databricks Runtime 7.0中的新功能的信息,请参见Databricks Runtime 7.0(不支持)发行说明。

GloWGR:全基因组回归

Glow现在包括一种可扩展的全基因组回归方法GloWGR。GloWGR是单节点工具的分布式版本regenie.GloWGR是一种企业级工具,它提供了与其他全基因组回归方法相当的准确性,但在速度上有一个数量级的提高。详细信息请参见全基因组回归在开源bob下载地址中。

变形金刚接受非字符串类型的参数

所有Glow transformer,包括pipe transformer和variant normalizer,现在接受值不是字符串的参数。的管道变压器的辉光文档反映新的用法。为了向后兼容,所有参数仍然接受字符串值。

Numpy ndarray字面量

现在你可以将字面numpy 1D和2D浮点类型ndarray传递给需要带有类型的DataFrame列的函数数组<二>而且DenseMatrix分别。的光芒全基因组关联研究文件演示新用法。

平均代入函数

Glow现在提供一个mean_substitute函数用非缺失值的平均值替换数组中的缺失值。

改进

联合基因分型性能

的性能联合基因分型管道提高了5-20%。当使用每个节点有多个核心的集群节点类型时,这种改进尤其明显。

VCF阅读器忽略tabix索引文件

在以前的版本中,如果VCF文件目录包含表索引文件,那么VCF阅读器在读取VCF文件目录时可能会失败。阅读器将尝试将tabix文件解释为VCF文件并报告错误。现在,读取器只使用索引文件来确定要读取哪些数据文件。

删除splitToBiallelic选项从VCF阅读器

选项已删除此选项split_multiallelics变压器.变压器比VCF阅读器更快,更准确。

以下部分列出了Databricks Runtime 7.0 for Genomics中包含的库,这些库与Databricks Runtime 7.0中包含的库不同。

升级库

  • ADAM: 0.30.0至0.32.0

删除库

Hail没有包含在Databricks Runtime 7.0 for Genomics中,因为没有基于Apache Spark 3.0的版本。

包装库

图书馆

版本

亚当

0.32.0

GATK

4.1.4.1

Hadoop-bam

7.9.2

samtools

1.9

VEP

96