凯伦冯砖是一个软件工程师。她工作在火花,火花SQL和基因组学应用包括项目发光。砖之前,她为普林斯顿大学基因组学开发的统计算法。
机器学习实践者是最舒适的使用Python等高级程序设计语言。这是一个障碍与大数据框架的并行算法例如Apache火花,这是低级语言编写的。砖与Regeneron遗传学中心合作,为人口规模的基因组创建辉光图书馆数据存储和分析。发光V1.0.0包括PySpark-based现有的和新的机器学习算法的实现。我们将讨论如何利用工具对于Python用户来说,尤其是熊猫udf,加速我们的发展速度和算法的计算性能的影响。
(daisna21-sessions-od)
与基因组大小的数据每七个月翻一番,现有工具在基因组规模空间设计为g翻倒时,用于处理数据的字节被当前可用biobank-scale努力。在大规模启用常见的基因组分析,灵活的特别分析,砖和Regeneron遗传学中心合作推出一个开源项目。
项目包括优化DataFrame读者加载基因组数据格式,以及引发SQL函数进行统计检验和质量控制对基因组数据分析。我们讨论各种实际用例处理基因组变异数据,代表一个人的基因组序列不同于普通的人类基因组。我们将讨论两个用例:联合基因分型,多个人的基因组分析作为一个群体来提高识别的准确性真正的变异;和变异影响注释,注释与他们的预测生物变异的影响。使这些工作流火花遵循一个简单的模式:我们摄取DataFrames平面文件,准备处理常见的数据引发SQL原语,每个分区上执行处理或行与现有的基因组分析工具,并将结果保存到三角洲或平面文件。
指数增长的基因组数据集、医疗从业者现在有机会改善人类的结果以前所未有的速度。这些结果很难意识到现有的生态系统中基因组的工具,在生物统计学定期连锁在一起的命令行接口基于一个单节点设置的前提。
砖统一为基因组学分析平台的授权bob体育亚洲版用户执行端到端分析在bob体育客户端下载我们的大规模可伸缩的云平台:在几分钟,数据科学家可以想象一个人的疾病风险根据其原始基因组数据。基于Apache的火花,我们提供了最佳实践的点击按钮实现工作流,以及低级火花SQL优化常见基因操作。