发光V1.0.0,下一代基因组广泛的分析
2021年3月9日 在解决方案
近年来基因组数据激增,尤其是在一些数据集,如英国生物库,成为免费提供给研究人员。基因组学数据用于高影响力的用例——基因发现、研究和开发优先级,进行随机对照试验。这些用例将帮助在发展下一代的疗法。
关键在于:派生的见解从这个数据需要数据团队规模分析。和扩展需要数据科学家和工程师与深度的技术技能。这就是为什么我们兴奋地宣布释放光芒1.0.0版本,一个开源库,解决了关键的挑战将分布式计算应用于基因组学数据在云中。bob下载地址
挑战遗传关联研究
随着基因数据增加,处理,存储和分析已经成为一个主要的瓶颈。挑战包括:
- 各种各样的数据。各种各样的数据类型可以使管理真正的头痛。例如,生物数据包含基因组学、电子健康记录、医疗设备和图像。
- 体积和速度的数据。基因数据是巨大的和不断发展的,分析运行不断地为新数据。
- 僵化的分析。单节点生物信息学工具不允许用户交互式地在大型数据集一起工作。基因组学数据格式可能会优化压缩和存储,而不是分析。生物信息学科学家过滤样品,要么是来自同一家庭或不同的种族。难过滤限制的权力作出新的发现。
介绍发光
发光是一个开源工具箱处理基因数据的群体规模。工具箱本身是建立在Apache火花™,一个统一的分析引擎对大规模数据处理和机器学习。bob体育亚洲版
- 桥梁生物信息学和大数据的生态系统。使用发光,可以摄取变体调用格式(VCF), bgen,叮铃声和冰雹矩阵表模式下常见的变体。变体可以写入数据三角洲湖创建基因组数据的湖泊,可以与各种数据源使用分布式机器学习算法等GraphFrames。
- 建立规模。发光基于Apache火花™和三角洲湖,允许用户从1到10到100个节点。或硬件扩展电脑速度比优化代码。
- 本机支持遗传关联研究。发光是整合regenie线性和逻辑回归,现在同时支持多达20表型。方法可以包括所有的数据没有过滤和控制情况下的不平衡和控制。发光使用Python编写和熊猫用户定义函数,允许计算生物学家延长发光基因负担或联合变异分析,例如。
图1所示。发光图书馆可以运行在砖的三大云,启动笔记本上可以找到文档。
图2。发光的整个基因组回归(GloWGR)数量级比现有方法更具有可伸缩性
结论
我们和Regeneron遗传学中心合作,解决关键尺度挑战基因组学通过项目发光。生物信息学、计算生物学家,统计遗传学家和科学家可以在砖一起分析平台,对任何云,扩展他们的基因组数据分析和下游机器学习应用。bob体育客户端下载第一个用例的Apache火花™和三角洲湖基因组学已经人口遗传关联研究。和现在我们看到新的用例出现癌症和儿童发育障碍。
开始
尝试发光V1.0.0在砖或了解BOB低频彩更多projectglow.io。
免费试着砖