Databricks Runtime 7.0 for Genomics(不支持)
Databricks于2020年6月发布了这张图片。
Databricks Runtime 7.0 for Genomics是一个版本Databricks Runtime 7.0(不支持)针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载
有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游.
新功能
Databricks Runtime 7.0 for Genomics是建立在Databricks Runtime 7.0之上的。有关Databricks Runtime 7.0中的新功能的信息,请参见Databricks Runtime 7.0(不支持)发行说明。
GloWGR:全基因组回归
Glow现在包括一种可扩展的全基因组回归方法GloWGR。GloWGR是单节点工具的分布式版本regenie.GloWGR是一种企业级工具,它提供了与其他全基因组回归方法相当的准确性,但在速度上有一个数量级的提高。详细信息请参见全基因组回归在开源bob下载地址中。
变形金刚接受非字符串类型的参数
所有Glow transformer,包括pipe transformer和variant normalizer,现在接受值不是字符串的参数。的管道变压器的辉光文档反映新的用法。为了向后兼容,所有参数仍然接受字符串值。
Numpy ndarray字面量
现在你可以将字面numpy 1D和2D浮点类型ndarray传递给需要带有类型的DataFrame列的函数数组<二>
而且DenseMatrix
分别。的光芒全基因组关联研究文件演示新用法。
平均代入函数
Glow现在提供一个mean_substitute函数用非缺失值的平均值替换数组中的缺失值。
改进
联合基因分型性能
的性能联合基因分型管道提高了5-20%。当使用每个节点有多个核心的集群节点类型时,这种改进尤其明显。
VCF阅读器忽略tabix索引文件
在以前的版本中,如果VCF文件目录包含表索引文件,那么VCF阅读器在读取VCF文件目录时可能会失败。阅读器将尝试将tabix文件解释为VCF文件并报告错误。现在,读取器只使用索引文件来确定要读取哪些数据文件。
删除splitToBiallelic
选项从VCF阅读器
选项已删除此选项split_multiallelics变压器.变压器比VCF阅读器更快,更准确。