客户的故事

利用人工智能发现新的治疗方法

600 x

改进整个数据集的查询运行时间

10倍

更快的数据管道,使团队支持更多的研究

背景图像

工业:生命科学

解决方案:遗传关联研究

bob体育客户端下载平台用例:三角洲湖数据科学机器学习ETL

云:AWS

Databricks平台使我们综bob体育客户端下载合药物开发过程中的每个人——从医生科学家到计算生物学家——都能轻松访问、分析并从我们的所有数据中提取见解。”

-Jeffrey Reid博士,Regeneron公司基因组信息学主管

Regeneron的使命是利用基因组数据的力量,为有需要的患者带来新药。然而,将这些数据转化为改变生活的发现和靶向治疗从未像现在这样具有挑战性。由于处理性能差和可伸缩性的限制,他们的数据团队缺乏分析pb级基因组和临床数据所需的资源。现在,数据库使他们能够快速分析整个基因组数据集,以加速新疗法的发现。

去中心化的基因组数据阻碍了机器学习

目前正在研发的所有实验性药物中,预计有95%以上将会失败。为了改进这些工作,Regeneron遗传学中心通过配对40多万人的测序外显子体和电子健康记录,建立了最全面的遗传学数据库之一。然而,他们在分析这个庞大的数据集时面临着许多挑战:

  • 基因组和临床数据高度分散,因此很难针对整个10TB数据集分析和训练模型。
  • 扩展其遗留架构以支持对超过800亿个数据点的分析是困难和昂贵的。
  • 数据团队花费了数天时间试图ETL数据,以便将其用于分析。

数据简化了基础设施和大规模的机器学习

Databricks为Regeneron提供了一个运行在AWS上的平台,通bob体育客户端下载过提高数据科学生产力,简化操作并加速药物发现。这使他们能够以新的方式分析数据,这在以前是不可能的。

  • 自动化集群管理:简化集群的配置,减少DevOps工作的时间,这样工程师和数据科学家就可以把更多的时间花在高价值的任务上。
  • 交互式工作空间:允许数据科学家共享数据和见解,在整个药物开发生命周期中培养透明和协作的环境。
  • performance Spark-powered Pipelines:显著提高用于处理10tb EHR + DNAseq数据的ETL管线的可靠性和速度。

更快地发现新的药物和疗法

有了Databricks, Regeneron的团队不再需要在DevOps工作中浪费过多的资源,建立和维护基础设施来支持他们的分析。如今,生物信息学团队、数据科学家和计算生物学家可以花更多时间在更高价值的任务上,比如开发新的治疗方法。

  • 加速药物靶点识别:将数据科学家和计算生物学家在整个数据集上运行查询所需的时间从30分钟缩短到3秒——提高了600倍!
  • 提高生产率:改进的协作、自动化的DevOps和加速的管道(ETL只需2天而不是3周)使他们的团队能够支持更广泛的研究。