工程的博客

Databricks的开bob下载地址源基因组学工具包优于领先的工具

2021年11月17日 工程的博客

分享这篇文章

请查看解决方案加速器下载本博客中提到的笔记。

基因组技术正在推动从RNA疫苗到基因编辑和诊断的新疗法的创造。这些领域的进展激励我们继续建设发光这是一个基因组学、机器学习和数据分析的开源工具包。该工具包是在Apache Spark™上构建的,Apache Spark™是大数据处理的领先引擎,可以实现人口规模的基因组学。

该项目最初是Databricks和Regeneron遗传学中心之间的行业合作。其目标是通过为社区构建下一代基因组数据分析工具来推进研究。我们从生物信息学图书馆中获得灵感,比如冰雹叮铃声而且bedtools,结合了一流的大规模数据处理技术。Glow现在的计算效率比业界领先的遗传关联研究工具高出10倍。

Glow和大规模基因组分析的愿景

减缓基因组学发展的主要瓶颈是数据管理和分析的复杂性。我们的目标是让没有接受过生物信息学培训的数据工程师和数据科学家能够简单地为分布式云计算环境中的基因组数据处理做出贡献。缓解这一瓶颈反过来又会在正反馈循环中推动对更多测序数据的需求。

何时使用Glow

Glow的应用领域是遗传变异数据的聚合和挖掘。特别是对于需要多次迭代运行或需要几个小时以上才能完成的数据分析,例如:

  1. 注释管道
  2. 遗传关联研究
  3. 基于gpu的深度学习算法
  4. 将数据转换成生物信息学工具。

的分布式实现作为一个例子Regenie方法.您可以在单个节点上运行Regenie,建议学术科学家使用。但是对于工业应用来说,Glow是世界上运行数千个关联测试的最具成本效益和可扩展性的方法。让我们来看看它是如何工作的。

对Glow与Hail进行基准测试

我们专注于基因关联研究作为基准,因为它们是任何分析管道中计算最密集的步骤。辉光是>10倍的性能,Firth回归相对于冰雹没有交易的准确性(图1).我们之所以能够实现这一性能,是因为我们首先应用了近似方法,将完整方法限制为与疾病有暗示关联的变体(P Glow文档)。

Databricks SQL仪表板在模拟数据集上显示Glow和Hail基准测试。
设置环境。

发光在Databricks湖屋平台bob体育客户端下载

我们有一个小的工程师团队,在紧凑的时间内开发Glow。那么,我们是如何赶上世界领先的生物医学研究机构的呢?我们通过在Databricks Lakehouse平bob体育客户端下载台行业合作伙伴bob体育外网下载.Databricks提供基础设施,使您的生产基因组数据分析。例如,你可以使用砖的工作要构建具有多个依赖项的复杂管道(图2).

此外,Databricks是一个安全的平台,受到财富100强和医疗保健组bob体育客户端下载织的信任,拥有他们最敏感的数据,坚持数据治理的原则(公平)、保安及合规(HIPAA而且GDPR).

发光在Databricks湖屋平台bob体育客户端下载
图2:Databricks Lakehouse平台上的Glowbob体育客户端下载

未来会发生什么?

Glow现在已经达到了v1的成熟水平,我们正在寻求社区的帮助为构建和扩展它做出贡献.有很多令人兴奋的事情在等着你。

基因组数据集如此之大,以至于使用Apache Spark进行批处理可能会达到某些云区域的容量限制。这个问题将由公开来解决三角洲湖格式,它统一了批处理和流处理。通过利用流,Delta Lake可以对新样本或变体进行增量处理,并隔离边缘情况以供进一步分析。结合辉光与三角洲湖将解决“n + 1问题”在基因组学。

基因组学研究的另一个问题是数据爆炸。仅在亚马逊网络服务上就有超过50份癌症基因组图谱。今天提出的解决方案是一个有围墙的花园,在基因组学领域平台内管理数据集。bob体育客户端下载这解决了数据复制问题,但随后将数据锁定到平台上。bob体育客户端下载

这种摩擦将得到缓解三角洲分享,这是一个用于大型数据集安全实时交换的开放协议,将使组织、云和领域平台之间的数据共享成为可能。bob体育客户端下载统一目录将使发现、审计和管理这些数据资产变得容易。

我们正处于基因组数据分析产业化的开端。欲了解BOB低频彩更多,请参阅发光的文档科技大谈YouTube和研讨会。

免费试用Databricks
看到所有工程的博客的帖子