跳转到主要内容
bob体育客户端下载平台的博客

发光V1.0.0,下一代基因组广泛的分析

分享这篇文章

近年来基因组数据激增,尤其是在一些数据集,如英国生物库,成为免费提供给研究人员。基因组学数据用于高影响力的用例——基因发现、研究和开发优先级,进行随机对照试验。这些用例将帮助在发展下一代的疗法。

关键在于:派生的见解从这个数据需要数据团队规模分析。和扩展需要数据科学家和工程师与深度的技术技能。这就是为什么我们兴奋地宣布释放光芒1.0.0版本,一个开源库,解决了关键的挑战将分布式计算应用于基因组学数据在云中。bob下载地址

挑战遗传关联研究

随着基因数据增加,处理,存储和分析已经成为一个主要的瓶颈。挑战包括:

  1. 各种各样的数据。各种各样的数据类型可以使管理真正的头痛。例如,生物数据包含基因组学、电子健康记录、医疗设备和图像。
  2. 体积和速度的数据。基因数据是巨大的和不断发展的,分析运行不断地为新数据。
  3. 僵化的分析。单节点生物信息学工具不允许用户交互式地在大型数据集一起工作。基因组学数据格式可能会优化压缩和存储,而不是分析。生物信息学科学家过滤样品,要么是来自同一家庭或不同的种族。难过滤限制的权力作出新的发现。

介绍发光

发光是一个开源工具箱处理基因数据的群体规模。工具箱本身是建立在Apache火花™,一个统一的分析引擎对大规模数据处理和机器学习。bob体育亚洲版

  1. 桥梁生物信息学和大数据的生态系统。使用发光,可以摄取变体调用格式(VCF), bgen,叮铃声和冰雹矩阵表模式下常见的变体。变体可以写入数据三角洲湖创建基因组数据的湖泊,可以与各种数据源使用分布式机器学习算法等GraphFrames
  2. 建立规模。发光基于Apache火花™和三角洲湖,允许用户从1到10到100个节点。或硬件扩展电脑速度比优化代码。
  3. 本机支持遗传关联研究。发光是整合regenie线性和逻辑回归,现在同时支持多达20表型。方法可以包括所有的数据没有过滤和控制情况下的不平衡和控制。发光使用Python编写和熊猫用户定义函数,允许计算生物学家延长发光基因负担或联合变异分析,例如。


图1所示。发光图书馆可以运行在砖的三大云,启动笔记本上可以找到文档

发光的整个基因组回归(GloWGR)数量级比现有方法更具有可伸缩性。
图2。发光的整个基因组回归(GloWGR)数量级比现有方法更具有可伸缩性

结论

我们和Regeneron遗传学中心合作,解决关键尺度挑战基因组学通过项目发光。生物信息学、计算生物学家,统计遗传学家和科学家可以在砖一起分析平台,对任何云,扩展他们的基因组数据分析和下游机器学习应用。bob体育客户端下载第一个用例的Apache火花™和三角洲湖基因组学已经人口遗传关联研究。和现在我们看到新的用例出现癌症和儿童发育障碍。

开始

尝试发光V1.0.0或了解BOB低频彩更多projectglow.io

免费试着砖
看到所有解决方案的帖子