战斗痴呆
深度学习
HLI如何改变医疗保健
生物医学图像处理的大规模应用
Databricks, MLflow和Apache SparkTM
深度学习对抗痴呆症的介绍
人类长寿公司在一场网络研讨会上介绍了他们如何使用Databricks统一数据分析平台来帮助预测患者患慢性疾病的可能性。bob体育客户端下载这是他们谈话的摘要。
的挑战
- 生物信息学、数据科学和研究团队之间协作不良:孤立的数据团队使用不同的工具和低效的工作流程,减缓了流向机器学习的数据流
- 生物信息学、数据科学和研究团队之间协作不良:复杂的数据管道缺乏与CI/CD、数据湖的集成,不适合处理医学图像
- 海量非结构化数据:60000张3D MRI图像,总计12tb数据,每周更新
- 难以满足HIPAA标准:难以匿名化图像以满足HIPAA要求
数据库解决方案
- 简化基础设施管理:通过自动化集群管理和成本管理功能(如自动伸缩和现货实例)降低运营成本
- 协作工作空间:交互式笔记本提高了跨团队协作和数据科学创造力,使Human Longevity大大加快了模型原型的迭代速度
- 简化的ML生命周期:托管MLflow简化了机器学习生命周期
- 可靠的大规模ETL:灵活高效的分析管道,可以处理医学图像,同时保持法规遵从性
结果
- 更快的ETL管道和更短的ETL开发时间:Databricks允许Human Longevity在不到24小时内ETL 6000万个文件
- 降低成本:人类寿命延长将ETL患者档案的成本降低了2.5倍
- 更高的生产力:通过为不同级别的用户提供支持广泛语言和可视化的共享工作空间,促进了数据科学家、生物信息学和研究团队之间的合作
- 更快的部署:当运维团队在不同的平台上部署模型时,将部署时间从几周减少到几分钟bob体育客户端下载
- 加速发现新的生物标志物:使团队能够建立一个风险模型,在诊断前8年以上识别痴呆症,使临床医生能够提供早期干预
业务用例
- 预防性健康筛查——通过将深度学习应用于MRI脑部扫描、基因图谱和EHR数据,预测患者罹患慢性疾病的个人风险
技术用例
- 构建可靠的高性能数据管道,以处理tb级的3D医学图像,用于下游机器学习
- 扩展机器学习/深度学习,同时保持法规遵从性
概述
知识就是力量。在医学上,知识可以成为预防疾病和延长生命的力量。
尽管医学在技术上取得了巨大的进步,但传统的预防保健依赖于与前数字时代不远的知识。医生会评估一些因素,如家族史、生活方式和简单的体检结果(血压、心率、体温),以寻找早期疾病的警告信号。
但许多疾病需要数年,甚至数十年才能显现出通过传统手段检测到的症状。由于早期发现往往意味着更好的结果,新一代数据驱动的个性化预防性医疗保健旨在早在症状出现之前发现疾病和疾病风险。
领先的医疗保健提供商正在利用人工智能和机器学习的见解增强医生的诊断专业知识,这些见解利用了不同的数据源,如全基因组测序和核磁共振成像图像,以提供个人当前健康状况和未来疾病风险的更详细信息。
人类长寿公司就是这些供应商之一。该公司成立于2013年,提供一款名为Health Nucleus的产品,这是一个个性化的健康平台,用于检测和确定痴呆症等疾病的风险。bob体育客户端下载
用深度学习治疗痴呆症
痴呆症是一种潜伏的疾病,可能在症状出现前20年就开始于大脑的微小变化。
当记忆丧失和语言问题变得明显时,对大脑的损害是不可弥补的。但并不是每个患痴呆症风险增加的人最终都要遭受这种疾病的折磨。
研究人员估计,如果高危人群在中年改变生活方式,三分之一的痴呆症可以预防。即使这种疾病不能完全避免,早期干预也可以减缓痴呆症的进展,降低其严重程度。
为了帮助患者更好地了解他们患痴呆症的风险在哪里,人类长寿公司使用深度学习管道来研究成千上万的核磁共振成像,以进行定量和定性分析。当与基因组数据配对时,最终产品是一份报告,使患者能够更好地管理自己的健康。
阻碍创新的挑战
从一开始,人类长寿公司的机器学习雄心勃勃。然而,有许多挑战减缓了他们大规模吸收和构建模型的能力
大量的非结构化数据
最大的问题之一是庞大的数据量。为了交付他们的用例,该公司需要分析大量的非结构化数据,总共有超过6000万张DICOM图像,总计约12tb,每周都会有新的图像。考虑到他们遗留的基础设施和低效的工作流程,这被证明是一项艰巨的任务。
跨团队协作不佳
HLI还发现很难与数据科学和工程团队在各自的竖井中进行模型迭代。对于大多数组织来说,这是一个很常见的问题,数据科学团队由于缺乏数据工程资源而陷入瓶颈,他们经常在管理和维护集群的DevOps工作上花费太多时间。
难以达到hipaa标准
在医疗保健行业中,法规遵从性始终处于任何数据策略的最前沿。HLI的工程师们被匿名化脑部扫描和严格的HIPAA要求所束缚。
基础设施的复杂性和局限性
更复杂的是,HLI的基础设施减缓了他们构建高性能新型诊断管道的能力。他们意识到,他们需要提高核心功能的工程标准,如日志记录问题、CI/CD集成以及与数据湖的集成。
为了克服这些挑战,HLI开始寻找一个标准化和统一的平台,可以帮助公司实现机器学习在个性化医疗服务中的承诺。bob体育客户端下载
数据:分析的统一方法
大规模DICOM图像去识别的HLI解决方案
通过简化基础设施管理节省资金
即使云提供了规模经济,大规模的生物医学图像处理也会迅速变得相当昂贵。为了帮助管理成本,HLI转向Databricks和AWS现货实例的自动化集群管理。由于使用Databricks的自动伸缩允许HLI在需求高或利用率低时精确地向上或向下扩展AWS集群,因此可以根据实际负载更积极地调整集群的大小,而无需终止任务或重新计算中间结果。这将最大限度地减少浪费的计算资源,而不会影响集群的响应性或效率。自动缩放与125 M5现货定价相结合。大型EC2实例允许HLI的DevOps以更低的成本更平稳地运行。利用Databricks作为其基础设施的核心,HLI能够在不到24小时内ETL 6000万份文件,同时将成本降低了2.5倍
“Databricks帮助我们解决所有的数据工程和数据科学问题。”
Christine swisher,人类长寿公司机器学习主管。
构建可靠和高性能的数据管道
HLI使用Databricks Delta Lakes为下游机器学习有效地摄取和准备数据。HLI的数据存储在S3中,但现在通过SQS消息传递系统将其送入Databricks, Databricks将启动ETL批处理作业,以清理数据并为下游分析做好准备。
速度/低成本的可伸缩性
- 带有现货实例的自动集群
- 在自动伸缩集群中最多可支持120个M5大型实例
- 使用boto3,而不是安装桶
- HLI能够在24小时内ETL 6000多万个文件。
元数据对于DICOM和大规模的生物医学处理都是至关重要的。由于Delta Lake利用Spark的分布式处理能力来处理元数据,因此可以轻松处理HLI的tb级文件。HLI还将元数据的一个子集存储在一个针对大数据优化的非关系数据库中,为研究人员提供了一种标准化和快速的方法来查询用于研究的图像。这还提供了额外的安全级别,这在处理医疗数据时总是很重要的考虑因素。
HLI在交互式集群上的Databricks中开发了他们的核心逻辑
HLI在交互式集群上的Databricks中开发了他们的核心逻辑,而交互式工作区CLI使得从IDE复制和粘贴代码到Databricks笔记本上变得简单,以便快速简便地调试。将干净的代码导出到IDE中同样轻松。这将新的和改进的管道与HLI的CI/CD工艺集成在一起。
使用笔记本和MLflow促进协作和管理模型生命周期
HLI的数据科学家使用Databricks的交互式工作空间,在共享的笔记本环境中用他们喜欢的脚本语言(如R、Python、Scala和SQL)和库(如Tensorflow、Keras、Pytorch、scikit-learn、nltk ML、pandas等)构建模型,然后只需单击一下,就可以无缝地将这些模型转移到生产环境中。
更短的ETL时间和更快的协作使我们的团队能够更快地构建模型。”
Michael wibbeke,数据工程师,人类长寿公司
HLI开发了一种用于大脑分割的三维全卷积神经网络
Databricks MLflow是一个用于管理完整机器学习生命周期的开源框架,允许HLI轻松地跨框架迭代和共享模型。
MLflow跟踪功能为HLI的数据科学家提供了一个方便的位置来存储结果和共享深度学习模型的参数,这使得再现性更容易,同时促进了更好的协作。需要一种快速测试想法的方法的数据科学家能够关联databrick托管的notebook,使他们能够管理特定的MLflow项目并可视化模型性能—加速整个组织的机器学习
加速医疗创新
更快的etl管道和更短的etl开发时间
Databricks允许人类长寿在不到24小时内记录6000万份文件
降低成本
人类长寿公司可以ETL病人档案,每个档案只需50美分
更好的代码
Databricks IDE集成使调试代码更容易和更快
更快的部署
将部署时间从几周缩短到几分钟,因为运维团队将模型部署在不同的平台上bob体育客户端下载
更高的生产率
通过单一的交互式工作空间支持不同的编程语言,促进数据科学家之间的合作
通过快速摄取千兆字节的生物医学成像数据,允许团队在单一平台上协作,简化模型开发,并加快生产时间,HLI在痴呆症研究领域开辟了新天地。bob体育客户端下载
统一的数据分析平台提高了人工智能使用新识别的生物标bob体育客户端下载志物区分疾病进展的能力。从HLI患者的角度来看,更重要的是,该公司发现人工智能与更具侵入性的痴呆症诊断测试一样准确。
直接的产品是一份极其复杂的医疗报告,患者可以用它来了解他们患痴呆症的风险,并采取措施预防或减缓疾病的最严重影响。
但最大和最无价的回报将是几十年后,当那些可能患有痴呆症的人享受充实和幸福的生活时。
BOB低频彩
对砖
Databricks是一家数据和人工智能公司。全球数以千计的机构——包括Showtime、Shell、Conde Nast和Regeneron——依靠Databricks的开放和统一平台进行数据工程、机器学习和分析。bob体育客户端下载Databricks是一家风险投资公司,总部设在旧金山,在全球各地设有办事处。Databricks由Apache Spark™、Delta Lake和MLflow的最初创建者创建,其使命是帮助数据团队解决世界上最棘手的问题。想要了BOB低频彩解更多,请在Twitter、LinkedIn和Facebook上关注Databricks。