客户的故事
通过基于云的人工智能推进疾病治疗
200万年
15分钟内分析基因组变异
2个药物靶点
发现用于阿尔茨海默病和帕金森等神经退行性疾病
“数据库使我们能够专注于将特定基因变异与特定疾病相匹配的科学,而不是在云优化上浪费时间和带宽。”
- David Sexton, Biogen公司基因组技术和信息学高级总监
大量基因组学数据集正在改变像Biogen这样的制药公司如何为患者护理的治疗方法确定新靶点,并提高现有治疗方法的疗效。但随着Biogen研究项目组合的增长,他们的基础设施和分析能力还没有准备好管理包含数十亿神经疾病发现的庞大基因组数据集。Biogen求助于Databricks将其内部数据基础设施转移到AWS云中,这大大缩短了数据处理时间,并增加了协作团队之间的带宽。通过提高可扩展性和速度,疾病生物学家现在能够加深他们对遗传变异、人类寿命和神经状态的理解,为世界各地的患者开发疗法和治疗方法。
千兆字节的基因组学数据推动了现代化进程
Biogen利用人类基因证据对他们的药物组合进行排名,发现新的基因靶点,并更好地了解神经疾病生物学。但是,从千兆字节的基因组学数据中提炼出基因型和表型之间的明确联系,需要建立可扩展和适应的数据技术——这是传统解决方案无法处理的。
由于需要处理来自英国生物银行50万志愿者参与者的大量健康和福利数据,Biogen面临着重大的信息学挑战。他们现有的数据中心存储容量不足,无法大规模收集和分析数据。他们的网络带宽无法处理传输如此多的信息,在2018年,这些问题导致Biogen的高性能计算集群中断了一周。
“我们真的需要一个新的Biogen数据范式,”Biogen基因组技术和信息学高级总监大卫·塞克斯顿(David Sexton)说。“迁移到Databricks和云帮助我们以pb级的规模可视化和分析基因组数据。”
大规模简化信息学和基础设施
Databricks推出了Databricks for Genomics,一个专门针对基因组数据工作流的运行时,以及Databricks Lakehouse平台的一个组件。bob体育客户端下载它支持Biogen的全方位需求,从初始数据处理到大规模统计分析。它还帮助他们的数据团队迁移到一种架构,在这种架构中,他们可以使用开源技术来加速大型数据集的摄取和分析。bob下载地址
与DNAnexus和Databricks合作,Biogen将其内部数据基础设施迁移到亚马逊网络服务(AWS)云中。这些共同的努力简化了操作,并有助于减少平均数据处理时间。对于Delta Lake, Biogen采用了以前需要2周时间来处理70万个变体的管道,并在大约15分钟内对其进行了优化,以注释200万个变体。
“英国生物银行数据集因其庞大的规模和复杂性而具有挑战性。有50万名参与者,我们需要处理数百万个变量和数据点,我们需要了解。”“为了建立一个高质量的数据集,我们必须处理这些变量,将它们与健康和评估数据结合起来,并将所有内容组合成一个大型数据语料库,这样科学家就可以轻松地查询。”
有了所需的存储和带宽支持,Biogen可以专注于数据科学生产力和新疗法。通过将DNAnexus平台与Databricks fbob体育客户端下载or Genomics相结合,Biogen能够使用英国生物银行的数据来识别含有影响人类寿命和神经状态的蛋白质截断变异的基因。这些发现导致了两种新的药物靶点的确定,并对阿尔茨海默病和帕金森病等神经退行性疾病有了新的认识。
加速发现新的疾病治疗方法和疗法
塞克斯顿说:“关于这些数据,真正重要的是它需要高质量和一致性。”“数据库使我们能够专注于将特定基因变异与特定疾病相匹配的科学,而不是在云优化上浪费时间和带宽。”
为了确保数据库的高度准确性和可查询性,Biogen需要能够根据基因位置对数据进行大量分区。对于跨越数千列的如此多元数据,垂直分区至关重要。安全也是如此;在系统构建和研究人员获得访问权限的过程中,保护数据的完整性非常重要。迁移到Databricks环境允许Biogen以多种方式拼接复杂的数据,并将Spark Hive Metastore集成到他们的平台访问控制模型中,以实际监督数据安全。bob体育客户端下载
塞克斯顿说:“数据库使我们能够在大约六种不同的基因中找到许多变异,所有这些变异都对人类寿命有重大影响。”“我们已经能够建立ML模型,使我们能够了解基因组变异如何影响我们正在开发的其他药物的功能和可能的成功。随着数据效率和发现能力的大幅提高,我们现在有了一个独特的机会,可以更好地了解复杂疾病的生物学,并开发出靶向治疗方法。”