利用英国生物银行数据、Databricks和DNAnexus改善Biogen的治疗开发

像英国生物银行这样的大规模基因组数据集正在彻底改变制药公司如何确定治疗开发的目标。然而,对于使用传统基因组数据技术的公司来说,将千兆字节的基因组数据转化为基因型和表型之间的可操作联系是遥不可及的。在本次演讲中,Biogen将介绍他们如何与DNAnexus和Databricks合作,将其内部数据基础设施迁移到AWS云中。通过将DNAnexus平台与Databricks Gbob体育客户端下载enomics Runtime相结合,Biogen能够使用英国生物银行数据集来识别含有影响人类寿命和神经状态的蛋白质截断变异的基因。

点击这里观看更多Spark + AI课程

免费试用Databricks

视频记录

-在座的各位晚上好。我叫大卫·塞克斯顿。我是Biogen公司基因组技术和信息学的负责人。

今天我请来了DNA Nexus的首席产品官John Ellithorpe和Databricks的医疗保健和生命科学技术总监Frank Nothaft。

所以今天的议程是,我将谈谈英国生物银行实际上是什么,以及为什么Biogen没有为如此大规模的数据做好准备。John将讲述使用DNA Nexus对英国生物银行数据进行大规模分析,以及DNA Nexus如何帮助我们扩大对这些数据的分析。Frank Nothaft将讲述如何结合最佳的云架构来加速英国生物银行的分析,他还将讲述数据砖如何帮助Biogen扩展解决方案。

那么,英国生物银行是什么?百健是如何利用它来发现新的治疗方法的?

因此,英国生物银行是目前世界上将疾病与基因联系起来的首要数据集。所以这是一项长期研究遗传易感性和环境暴露对疾病发展的影响。该数据集收集的参与者年龄在40至69岁之间。这是超过30年的表型数据,这些患者被长期跟踪,测量他们在这30年的时间跨度内的健康状况。在英国有22个研究中心,有超过50万名志愿者,这是有史以来规模最大、最详细的人口研究之一。你可以看到英国生物银行发表了大量的论文。那么英国生物银行收集了哪些基因数据呢?2017年,八家合作公司共同组建了生命科学遗传学联盟。作为该联盟的一部分,我们将对50万英国生物银行参与者的外显子序列进行测序。外显子组是基因的蛋白质编码区,作为联盟的一部分,Biogen将在50万名参与者中探测所有该基因组区域的蛋白质编码基因。 The participants of the UK Biobank Consortia Regeneron, and GSK sequence the first 50,000 samples, and all 500,000 participants are to be sequenced in 2020. Industry partners will have exclusivity until 2021, and we currently We have 300,000 exomes in-house.

那么Biogen是如何利用英国生物银行的数据的呢?

我们正在利用人类基因证据对我们的药物组合进行排名。我们正在使用这些数据来寻找新的基因靶点,我们正在用它来了解神经疾病生物学。

所以Biogen在使用这些数据时遇到了一些信息学上的挑战。

我们的数据基础设施面临的挑战是没有足够的存储容量和数据中心。英国生物银行的数据将大约是1pb的数据,而我们的数据中心目前没有这样的存储空间。我们的网络出现了问题,没有足够的带宽将所有这些数据传输到我们的数据中心。当我在2018年加入Biogen时,我们的高性能计算集群刚刚中断了一周。

所以我们真的需要一个新的Biogen数据范式,这就是DNA Nexus和Dataricks帮助我们的地方。我们需要扩展我们的基础设施来处理pb级的数据集,我们需要存储和可视化我们的基因组数据,我们需要大规模分析这些数据,Biogen IT要求我们首先在云上存储和使用我们的数据。

所以现在我将把它交给约翰来谈谈如何利用DNA Nexus的泰坦和阿波罗产品来扩展英国生物银行的数据。-谢谢你,大卫。所以,当我们看到英国生物银行和Biogen需要做什么时,如果你没有看到处理大型基因组数据集所需的步骤。

使用英国生物银行数据集进行大规模分析

我们把它分成了两个不同的部分。这是一个上升趋势你需要准备高质量的数据集。因此,从测序机或这些原始读取的数据,你无法确切地了解变异是什么。所以有一个处理步骤需要在整个50万个外显子组数据集上进行才能建立高质量的基因组数据集。第二点是将其与健康和评估数据结合起来,就像人口统计数据和其他类型的数据一样。然后需要将这些数据组合成一个大型的数据语料库,这样科学家就可以通过查询数据、询问数据问题、进行统计分析来得到数据的最终结果。当我们查看英国生物银行的数据时,由于数据的庞大规模和复杂性,该数据集具有挑战性。如果你看右边,你可以看到在基因组方面,我们有50万参与者在那个数据集中。每个参与者都可以有多达数百万的变体,他们可以通过这些追踪,现在基本上给了你数万亿的数据点,这些数据点需要能够理解纯粹从基因组方面来看是什么样子的。在所谓的表型方面可能是人口统计信息,健康信息,来自医疗记录的临床信息。 That is a wide data set. There are a lot of different fields, over 3500 different phenotypic fields that are there. And they’re also quite complex, in that you might have significant encodings of the values, you might have hierarchies in terms of what the values could be. You also have some level of launch set of data because people came in multiple times into the assessment centers to measure things like blood pressure and things like that. So there’s a longitudinal aspect to the data. And so once you’ve combined all these together, you have essentially a very large data set that you have to manage to be able to do the things that David mentioned needing to do. Let’s focus now at the different stages of this process, and we could talk a little bit about how DNA Nexus help. In this first stage with 500,000 samples, you end up with about 2 million files as you have the alignment files as well as the outputs, are called GCF files, as well as the index files that go along with it. we computed that, it’s around one and a half petabytes of data that you have to process.

关于这些数据真正重要的是你需要以高质量,一致的方式来做这些数据。如果我们观察其中的阶段,你可能会得到原始的读数,然后你做一个所谓的校准步骤,这是将它与参考基因组校准,以真正确定不同的片段堆叠在哪里。然后识别外显子组上的每个点,在那个片段的那个点的调用是什么,以及各种数据的摄取。

这个数据集是在Regeneron基因组中心处理的,他们得到了处理过的样本。他们有一个成本优化的管道,每个样品大约需要4个小时来运行,所以在50万个样品中,我们在机器上看到了数百万个小时。所以这是一个大规模的问题。所以如果我们看看他们使用的技术,他们使用泰坦产品来处理这些。当我们看到为什么这很难的时候,如果你要处理几个样本,实际上在云中处理并不难。但是一旦你进入到成千上万,成千上万,成千上万个样本的水平,你真的想要持续高效地做这件事,那么对云的容错就非常重要了。能够只关注异常和科学,而不必处理云优化等也非常重要。

移动数据并确保数据完整性的一致性也非常重要。对于研究环境来说,使用特别重要和相关的工具也是非常重要的。这些就是土卫六能做的所有事情。

例如,我们有另一家制药公司作为财团的一部分,他们重新运行了10万个样本,每小时处理大约1000个外显子体。所以在三天半的时间里,我们将能够处理10万个外显子体。当您在安全的环境中重新处理数据时,这种能力确实是需要的。

我将进入流程的下一个阶段。现在我们必须将大量的基因组数据与临床数据结合起来。虽然有3500个或更多的字段,但最终需要将大约11000多个列存储到系统中,然后组合起来才能有效地查询数据。作为联盟的一部分,我们提供了一个群组浏览器,允许研究人员在查询时直观地浏览数据并与数据交互,并对数据提出问题,探索数据。我马上就会展示。其中非常重要的是数据量,数据既广又深。最终,我们需要500亿行来跨越整个基因组数据,并且需要数百个表来管理数据列。这使得与数据的实时交互变得非常困难。

所以我们所做的是使用阿波罗技术来构建这个系统,阿波罗技术将高质量的数据集从泰坦系统中提取出来并将其与结构化数据结合起来,也就是健康评估数据,并为你提供一种以各种方式与之交互的能力。重要的是,有了这么大的数据集,你不能把数据转移给研究人员和工具。你真的需要把工具和研究带到数据中去。所以这是核心方面为阿波罗提供动力的核心引擎是基于Spark的引擎。

基于spark的引擎是一个使用spark SQL来查询数据的引擎。但为了做到这一点,我们需要做几件事。一个是我们需要能够根据基因位置对数据进行大量的分区以便能够快速查询以及进行垂直表分割,本质上是垂直分区以便能够足够快地查询因为在11000列中有如此多的元数据。你必须非常聪明地实现查询,才能得到以秒为单位的响应时间,并处理这个数据集,并且能够真正直观地快速探索,从而能够得到它。除了能够提供数据科学之外,通过Jupiter notes书籍和其他机制能够输入数据,并使用工具和Python库或R脚本以及他们想做的事情进行统计分析。另一个重要的方面是在我们的环境中保持这些都是安全的,我们已经将Spark hive元存储集成到我们的平台访问控制模型中,以真正控制海量数据集的安全性。bob体育客户端下载因此,这是非常重要的,因为我们一起建立了整个系统,并将其提供给英国生物银行联盟的授权研究人员。-很好,非常感谢John和David带领我们进入这个部分。

结合最佳的云

我是Frank Nothaft。我是Data Bricks医疗保健和生命科学的技术总监。因此,我管理着我们全球范围内的技术工作,包括产品开发方面的基因组运行,加入我们与客户密切合作的解决方案架构团队,以及与DNA Nexus等合作伙伴合作的一些功能。bob体育外网下载我要讲的是Databricks平台是如何进入这个领域的,以及我们如何在DNA Nexus、Bibob体育客户端下载ogen和Databricks团队之间合作,成功分析大规模的英国生物银行数据。

为基因组学引入统一分析协bob体育亚洲版作平台,用于大规模的交互式基因组数据处理和分析bob体育客户端下载

这张幻灯片总结了我们的Databricks平台在基因组领域的样子。bob体育客户端下载如果你熟悉Databricks平台,我们有一种云基础设施层,可以优化你使用的机bob体育客户端下载器,然后我们有一个顶层,提供笔记本电脑的功能,使它更容易使用笔记本电脑,以一种可复制和共享的方式。但是在中间层,我们提供了许多不同的运行时,这些运行时为客户正在处理的各种不同任务提供了优化的软件堆栈。无论是处理大规模流数据集,还是进行机器学习,或者像我们在2018年介绍并在去年普遍提供的那样,我们已经引入了专门针对基因组数据工作流的运行时。我们的工作流程涵盖了从最初的数据处理,到大规模的统计分析变化数据的整个任务域。我们已经能够在Biogen使用所有这些工作流程,但要关注几个不同的点,在前期执行方面,我们所做的是我们已经采取了GTK的最佳实践管道。对于那些熟悉基因组学的人来说,GTK是一套标准的管道用于获取单个个体,原始DNA测序读取并将其转化为种系变异或突变呼叫(如果你在研究癌症数据)。我们已经使用了这些管道,我们已经使它们易于使用,通过一个点击界面来设置和运行它们,大约需要五分钟来设置管道,使其更容易访问这些。我们还对它们进行了广泛的性能优化,使它们与Spark配合得很好。所以最终,我们已经能够做到一些事情,比如通过从CPU效率的角度来看,大约两倍的性能改进,将在高覆盖率的整个基因组上运行GTK种系管道的延迟从30小时减少到40分钟以内,然后使用Spark的强大功能在多个核上瘫痪这项工作。 We’ve then gone ahead and we take a very big focus at working on population scale data. We actually have extended support for the GTK’s joint genotyping pipeline. So this is the pipeline that takes data from many single samples and blends it together into a single population. We’ve accelerated that and paralyze that out using Spark. And then we’ve worked to package up a couple of open source libraries. Hail, which comes from the Broad Institute and Glow, which is a project we’ve actually developed here at Databricks in conjunction with the Regeneron Genetic Center that allow people to go ahead and merge these datasets together while we control them and ultimately run large scale statistical analyses on top of that data. Our ultimate ambition here is to move people to an architecture where they’re able to use open source technologies like Glow that make it easy to use many different languages, be the Python or SQL on top of genomic data, coupled along with efficient, optimized and open source file formats like our Delta Lake file format, which is a open source. So that they can go ahead and accelerate the process of taking large data sets, wrangling and cleaning them up, joining them with a variety of different data types, be a clinical data, be the images, be the other lab measures, and ultimately produces head of GWAS results or other other statistical results that they can do machine learning on top of to generate scores, and that they can go ahead and serve directly to research and clinical audiences.

Biogen公司英国生物银行的GWAS

当我们看看我们在Biogen公司基于英国生物银行数据所做的一些工作时,你现在可以继续强调我们与大卫的团队围绕他们的一些全基因组关联管道所合作的一些工作。对于GWAS管道,这本质上是一个统计内核,它将数据集中的每一个基因组变异和我们感兴趣的表型,继续进行某种统计测试,看看这两者是否相关。

比方说,如果我在研究,一个常见的连续分布变量,比如身高,这可能是每一个基因组变异和每一个表型之间的线性关联。或者如果我在研究更复杂的东西,我可能会使用更复杂的测试,比如考克斯比例风险模型或类似的东西。对于英国生物银行的数据集,这尤其具有挑战性,因为我们正在处理的数据量非常大。英国生物银行有超过2000种表型。

根据外显子组测序数据,有数千万个相关的变体。因此,当你继续进行完整的交叉时,你可以运行数十亿个回归测试来将这些数据关联在一起。通过我们能够构建的管道,首先,我们能够继续前进并使用开源Hail工具非常快速地吸收这些数据,并开始生成我们的第一个结果。bob下载地址当这些结果生成后,Biogen团队能够采用一些传统的注释管道。这些工具可以将我们发现的与我们感兴趣的疾病有某种关联的变异变异加上额外的功能后果,这是一种截断蛋白质的变异吗?这是我们在其他疾病中看到的变种吗?这是我们所知道的改变基因表达方式的变体吗?他们能够采用以前需要两周时间处理70万个变种的管道,并且大大加快了速度。他们能够在15分钟内注释200万个变量,所以他们有数量级的加速度。最终,这为他们提供了一个快速查询的数据库,基因型/表型与相关结果的关联,使他们能够真正了解这些变体是如何发挥作用的,以及这些变体的作用。 This was really exciting. Just earlier this month, the Biogen team released the preprints on some of this work that summarizes the effects that they found in protein truncating variants. So these are a genetic change that causes a gene to be truncated so you don’t get the full copy of the protein, you instead get a scrambled copy that doesn’t produce the correct thing. They’ve been able to find a number of variants in about six different genes that have a significant impact on human lifespan. And they’ve been able to understand the biology of complex diseases a bit better through that.

最终,当我们看到所有这些是如何结合在一起时,Biogen团队能够实现的伟大之处在于,他们已经能够实现一个架构,在这个架构中,他们能够使用他们自己的云环境,来自英国生物银行的Regeneron遗传中心的数据,他们已经能够将DNA Nexus和数据库平台融合在一起。bob体育客户端下载最终,这为他们提供了最佳的解决方案,他们可以访问DNA Nexus平台,包括阿波罗和泰坦项目的许多最佳实践管道和最佳实践可视化工具。bob体育客户端下载所以他们能够快速地进行分析,他们能够快速地运行他们需要的管道,最终为他们的实验科学和临床团队生成所需的可视化结果。他们已经能够使用Databricks平台对这些工作流程进行真正深入的研究。bob体育客户端下载因此,最终,通过将这三个团队的能力结合在一起,Biogen在数据方面的专业知识,他们在科学方面的专业知识,在DNA Nexus和数据库平台上可用的强大工具,我们已经能够接受大量的挑战。bob体育客户端下载

与Biogen、DNAnexus和Databricks合作改善治疗

从这些海量的原始数据中,超过十亿字节的数据来自50万个人,这些数据围绕着Biogen拥有的传统生态系统,它需要转移到云端。最终,Biogen团队取得了巨大的成功。有了这些发现,他们从这个与综合表型相关的大规模综合变异数据库中得到了这些发现,他们已经能够继续研究并确定新的药物靶点。他们还建立了模型,使他们能够了解基因组变异如何影响他们正在开发的其他药物的功能和可能的成功。所以他们能够继续前进,重新定位和优先考虑他们的药物组合。当你看到Biogen正在研究的复杂的神经退行性疾病时,像这样的数据集给了他们更多的洞察力,更精确,更有能力去探究神经退行性疾病的复杂生物学。随着每个月的过去,随着我们对这些数据集的关注越来越多,我们都在通过这种结合基因型和表型数据的力量,作为一个社区,对复杂的人类疾病有了更好的理解。

我很高兴看到DNA Nexus和Databricks团队之间的合作。我们看到了大量的重叠,客户可以从这两种技术中受益,无论是他们如何使用Titan项目来满足他们的许多数据处理需求,还是如何使用Databricks来满足他们的ML需求,以及他们如何利用大量技术来可视化、理解和询问Apollo产品中可用的基因组和表型数据。我们看到一个紧密的集成即将到来,因为他们的Spark团队在这个领域的许多不同的技术。我们期待更多的合作。我们非常有兴趣与该领域中任何对这些产品一起使用感兴趣的人交谈,以及那些想要影响我们未来如何将这些产品集成在一起的路线图的人。大卫和约翰,再次非常感谢你们加入我们的冒险之旅。我想基因组学社区的每个人都非常激动地看到英国生物银行的数据为我们提供了大量关于人类疾病复杂生物学的深刻见解,我真的非常感激

点击这里观看更多Spark + AI课程

免费试用Databricks
«回来
关于John Ellithorpe博士

DNAnexus

John Ellithorpe博士是DNAnexus的执行副总裁兼首席产品官。在他的职业生涯中,他一直在推动创新技术,以改善人们的生活。在DNAnexus, John领导产品、工程、科学、服务和支持团队。在此之前,John是Vantiq的首席技术官,在物联网领域提供智能系统,以及Model N(纽约证券交易所代码:MODN)的联合创始人、首席技术官和首席技术官,在那里他领导全球产品团队并推动技术战略。他拥有加州大学欧文分校的物理学学士学位和麻省理工学院的物理学博士学位。

关于大卫·塞克斯顿

生原体

David是Biogen公司基因组技术和信息学高级总监。David在生命科学领域工作了27年,是一名横跨工业和学术界的科学家和信息系统创新者。David在Biogen领导着一个多样化的团队,负责下一代测序、计算生物学和组学信息系统。此前,David曾担任诺华生物医学研究所基因组信息学主管,领导负责诺华所有基因组信息系统的团队。他还参与了皮斯托亚联盟(Pistoia Alliance)的行业工作,以促进生命科学研究中的FAIR数据实践。David持有分子与细胞科学学士学位和计算机信息系统硕士学位。

关于Frank Austin Nothaft

Frank是Databricks医疗保健和生命科学垂直领域的技术总监。在加入Databricks之前,Frank是加州大学伯克利分校大数据基因组学/ADAM和特劳项目的首席开发人员,并在博通公司工作,负责工业规模无线通信芯片的自动化技术设计。Frank拥有加州大学伯克利分校的计算机科学博士和硕士学位,以及斯坦福大学电气工程荣誉学士学位。