战斗痴呆
与深度学习
如何HLI正在改变医疗
生物医学图像处理大规模使用
砖、MLflow和Apache SparkTM
介绍与深度学习战斗痴呆
现场研讨会期间人类长寿公司说他们如何使用砖统一数据分析平台,帮助预测发展中慢性疾病病人的可能性。bob体育客户端下载这是他们谈话的总结。
的挑战
- 在生物信息学、缺乏协作数据科学研究团队:孤立的数据团队使用不同的工具和低效的工作流放缓到机器学习的数据流
- 可怜的协作在生物信息学,数据科学研究团队:复杂的数据管道,缺乏与CI / CD的集成,数据湖,不适于处理医学图像
- 大量非结构化数据:60000 3 d MRI图像共计12 tb的数据到达每周与新图像
- 难以满足HIPAA标准:很难满足HIPAA要求匿名化图像
砖的解决方案
- 简化基础设施管理:通过自动化集群管理和成本管理降低运营成本等特性自动定量和现货实例
- 协作工作区:交互式笔记本改善跨团队协作和数据科学的创造力,让人类寿命大大加速为更快的迭代模型的原型
- 简化毫升生命周期:MLflow简化了机器学习生命周期管理
- 可靠的ETL规模:敏捷、高效的分析管道可以处理医学图像,同时保持法规遵从性
结果
- 更快的ETL管道和ETL开发时间短:砖允许人类长寿的ETL 6000万个文件在不到24小时
- 降低成本:人类长寿ETL病人文件的成本减少了2.5 x
- 更高的生产率,促进数据科学家之间的合作,生物信息学和研究团队通过提供一个共享工作空间支持广泛的语言和可视化为不同级别的用户
- 更快的部署:减少部署时间从周分钟运营团队在不同的平台上部署模型bob体育客户端下载
- 加速新发现的生物标记:启用团队建立风险模型,确定痴呆诊断前8年以上授权医生提供早期干预
业务用例
- 预防性的健康屏幕——预测病人的个人发展中慢性病的风险通过应用深度学习核磁共振大脑扫描,遗传资料和电子健康档案数据
技术用例
- 构建可靠和高性能数据管道的三维医学图像处理tb下游机器学习
- 大规模机器学习/深度学习,同时保持法规遵从性
概述
知识就是力量。在医学上,知识可以预防疾病和延长寿命。
尽管巨大的医学技术的进步,传统的预防医疗依赖知识不是很远离前数字时代。医生评估家族史等因素,生活方式,和一个简单的物理考试的结果(血压、心率、体温)寻找早期疾病的预警信号。
但许多疾病需要数年、甚至数十年通过传统手段表现症状可检测。因为早期发现通常转化为更好的结果,新一代的数据驱动的、个性化的预防医疗旨在发现疾病和疾病的风险在症状出现之前。
尖端医疗保健提供者增加医生的诊断专业知识与见解从人工智能和机器学习,利用不同的数据源,如全基因组测序和图像从核磁共振成像到提供一个更详细的图片个体当前的健康和未来的疾病风险。
人类的长寿,inc .)是这些提供者之一。公司成立于2013年,提供了一个叫做健康核产品,个性化的健康平台检测和确定痴呆等疾病的危险。bob体育客户端下载
处理与深度学习痴呆
痴呆是一个阴险的条件,就可以开始用小大脑的变化在症状出现之前20年。
的时候记忆丧失和语言问题变得明显,大脑的损伤是不可挽回的。但并不是每个人都与增加患老年痴呆症的风险最终罹患这种疾病。
研究人员估计三分之一的病例可以预防老年痴呆症如果高危个体在中年生活方式的改变。即使疾病不能完全阻止,早期干预可以减缓痴呆的进展,降低其严重性。
帮助病人更好地理解他们的痴呆的风险所在,使用深度学习管道研究人类长寿公司,成千上万的核磁共振成像进行定量和定性分析。当搭配基因组数据,最终产品的一份报告,使患者更好地管理自己的健康。
挑战阻碍创新
从一开始,人类的寿命,Inc .)机器学习野心大。然而,有许多挑战,减缓他们摄取的能力和建立模型的规模
大量的非结构化数据
最大的问题之一是纯粹的数据量。为了兑现自己的用例,该公司需要分析大量的非结构化数据,超过6000万的DICOM图像到每周总计大约12 tb的新图像。考虑到他们遗留的基础设施和低效的工作流程,这被证明是一个艰巨的任务。
可怜的跨团队合作
HLI也发现很难迭代模型与数据分区的科学和工程团队各自的筒仓。大多数组织的普遍问题,数据科学团队的瓶颈缺乏数据工程资源,经常花太多的时间在DevOps工作管理和维护集群。
难以满足HIPAA标准
在医疗行业中,法规遵从性总是在任何数据战略的前沿。HLI工程师们手脚剩下匿名的大脑扫描和符合严格的HIPAA要求。
基础设施的复杂性和局限性
进一步复杂化的是HLI小说的基础设施能力构建高性能放缓诊断管道。他们意识到,他们需要提高工程测井等核心功能问题,CI / CD集成和集成数据。
为了克服这些挑战,HLI开始寻找一个标准化的统一平台,可以帮助公司实现的承诺服务的机器学习个性化医疗。bob体育客户端下载
砖:一个统一的分析方法
HLI解决大规模de-identification的DICOM图像
省钱和简化基础设施管理
即使规模经济提供的云,生物医学图像处理规模可迅速变得非常昂贵。帮助管理成本,HLI转向自动化集群管理从砖和AWS实例。因为自动定量数据砖允许HLI精确AWS集群规模向上或向下需求高或利用率很低时,集群可以调整更积极应对实际负载没有杀戮任务或再计算中间结果。这个前提下最大限度地减少浪费计算资源集群响应能力或效率。自动定量结合现货价格125 M5。大型EC2实例允许HLI DevOps的运行更平稳,以更低的成本。砖基础设施的核心,HLI能够ETL 6000万个文件在不到24小时内,而成本降低了成本的2.5倍
“砖帮助我们解决我们所有的工程和数据科学问题。”
主任克里斯汀斯威舍机器学习,人类长寿,INC。
建立一个可靠和高性能的数据管道
HLI使用砖三角洲下游湖泊有效摄取和准备数据机器学习。HLI的数据存储在S3,但现在通过一个SQS消息传递系统输入数据砖,启动ETL批作业清洁和下游的数据分析做准备。
速度/低成本的可伸缩性
- 自动集群实例
- 在集群自动定量120 M5大实例
- 使用boto3,而不是装桶
- 将工作均匀地分散到工人HLI能够ETL 60 +百万文件在24小时内。
元数据是至关重要的DICOM专门和生物医学处理规模一般。因为三角洲湖利用火花处理元数据的分布式处理能力,三角洲湖是轻易能够处理HLI tb的文件。HLI还存储在一个非关系数据库元数据的一个子集优化大数据给研究者一个标准化的和快速的方法来查询图像进行研究。这也提供了一个额外的安全级别,考虑这始终是重要的在处理医疗数据。
HLI开发交互式集群上砖的核心逻辑
HLI发达砖在交互式集群的核心逻辑,和交互式工作区CLI使它简单的复制和粘贴代码从IDE砖笔记本的快速和容易调试。出口干净代码回IDE一样痛苦。这种集成的新的和改进的管道与HLI CI / CD的过程。
培养协作和管理模型与笔记本和MLflow生命周期
HLI数据科学家使用砖的交互式工作空间在他们喜欢的脚本语言建立模型(如R、Python、Scala和SQL)和库(如Tensorflow Keras、Pytorch scikit-learn, nltk ML,熊猫,等等)在共享笔记本的环境中,然后这些模型无缝迁移到生产与一个单一的点击。
“ETL时间短和更快的合作使我们的团队构建模型更快。”
数据工程师迈克尔•WIBBEKE人类长寿,INC。
HLI开发3 d大脑完全卷积神经网络分割
砖MLflow,开源框架来管理机器学习的完整生命周期,允许HLI迭代和跨框架轻松共享模型。
MLflow跟踪特性提供HLI数据科学家一个方便的位置来存储结果的深度学习和分享的参数模型,它允许更容易再现性而促进更好的合作。数据科学家需要一个快速的方法测试想法能够关联Databricks-hosted笔记本使他们能够管理一个特定MLflow项目和可视化模型性能,加速机器学习整个组织
加快医疗创新
更快的ETL管道和ETL开发时间短
砖允许人类长寿的ETL 6000万个文件在不到24小时
降低成本
人类的寿命可以ETL病人花费50美分每个文件的文件
更好的代码
砖IDE集成会使您更容易、更快地调试代码
更快的部署
减少部署时间从weeksto分钟运营团队在不同的平台上部署模型bob体育客户端下载
更高的生产率
培养协作数据科学家通过启用不同的编程语言之间通过一个交互式的工作区
通过快速摄取tb的生物医学成像数据,允许团队协作完成一个平台,简化模型的发展,加速时间生产,HLI痴呆研究的领域开拓了新的道路。bob体育客户端下载
统一数据分析平台改进AI的能力区分疾病进程的使用新bob体育客户端下载发现的生物标志物。更重要的是来自HLI的病人的角度来看,该公司发现,AI一样准确更侵入性痴呆的诊断测试。
最直接的产品是一个极其复杂的医疗报告,病人可以使用它来了解他们患老年痴呆症的风险,采取措施,预防或减缓疾病最严重的影响。
但最大的、最无价的回报将数十年后当可能患有老年痴呆症的人而不是享受完整的和快乐的生活。
BOB低频彩
对砖
砖是数据和AI公司。全世界成千上万的组织(包括Showtime、壳牌、Conde Nast和Regeneron——依靠砖的开放和统一数据平台工程、机器学习和分析。bob体育客户端下载砖是风险资本支持,全球总部设在旧金山设有办事处。由最初的创造者Apache火花™,三角洲湖和MLflow,砖的使命是帮助团队解决世界难题的数据。为了了BOB低频彩解更多,在Twitter上关注砖,LinkedIn和Facebook。