COVID-19现在数据集上可用数据砖:如何将数据社区可以帮助

分享这篇文章

最初公布的4月14日,2020;2020年4月21日更新

与当前的大规模破坏COVID-19大流行,许多数据工程师和科学家正在自问“社区的数据能帮上什么忙?”的data community is already doing some amazing work in a short amount of time including (but certainly not limited to) one of the most commonly used COVID-19 data sources:2019年新型冠状病毒COVID-19 (2019 - ncov)由约翰霍普金斯CSSE数据存储库。以下比例的GIF动画是一个可视化表示的确诊病例(县)和死亡人数(圆圈)跨越从3月22日到4月14日。

https://www.youtube.com/watch?v=QjFZQyK2i2w

其他的例子包括新型冠状病毒的基因组流行病学提供实时跟踪病原体的进化(点击传输和发展史)。

新型冠状病毒基因流行病学(2020-04-08)”src= — 图2:来源:基因流行病学新型冠状病毒(2020-04-08)

医院资源利用率的一个强有力的例子包括建模华盛顿大学研究所的健康和指标评价(健康)COVID-19预测。截图提供预测医院资源利用率指标,强调峰值资源使用3月28日,2020年。

母校- COVID-19预测意大利(2020-04-08)”src= — (2020-04-08)

但我能帮什么忙吗?

我们相信,克服COVID-19此刻是世界上最困难的问题,并帮助做出重要决定,重要的是要理解底层数据。我们已经采取措施使任何人——从第一次data explorers数据专业人员参与工作。

3月下旬,我们开始COVID-19数据集的数据分析引物与我们的技术讨论分析COVID-19:社区的数据可以帮助吗?在这个会话中,我们进行了探索性数据分析和自然语言处理(NLP)各种开源项目,包括但不限于bob下载地址Apache火花™,Python,熊猫,伯特。我们也有这些笔记本电脑供你下载和使用环境的选择,是否这是你自己的本地Python虚拟环境,云计算,或砖社区版。

例如,我们分析了在此会话COVID-19开放研究数据集的挑战(CORD-19)数据集和观察:

有成千上万的JSON文件,每个文件包含研究论文文本的细节包括引用。JSON模式的复杂性可以处理这些数据一个复杂的任务。幸运的是,Apache火花可以快速和自动推断这些JSON文件和使用的模式这个笔记本,我们将成千上万的JSON文件保存到几铺文件方便随后的探索性数据分析。
本文的大多数是无结构的,有数据质量问题包括(但不限于)正确地识别的主要作者的国家。在这个笔记本,我们提供的步骤清除这个数据和识别ISOα3国家代码我们可以随后地图论文主要作者的国家的数量。

数量COVID-19-related研究论文的主要作者从分析COVID-19:社区的数据能帮助我们吗?”src=

在清理数据,我们可以获得各种NLP算法应用于一些洞察力和直觉到这个数据。这个笔记本执行各种任务,包括概括论文摘要(一个纸从7800到1100个字符),以及创建下列词云基于这些研究论文的标题。

词云基于COVID-19-related研究论文从分析COVID-19标题:数据社区可以帮忙吗?”src=

给我的数据!

像大多数数据分析师、工程师和科学家将证明,您的数据的质量有一个强大的影响你的探索性数据分析。正如一些有用的东西了解机器学习(2012年10月):

“一个愚蠢的算法用很多很多的数据比一个聪明的人一些。”

重要的是要注意,这句话强调的重要性有大量高质量的数据而不是琐碎的机器学习的其他重要方面,例如(但不限于)特性工程的重要性和数据仅是不够的。

许多数据社区继续工作方便地提供各种SARS-CoV-2(原因)和COVID-19(疾病)Kaggle和GitHub包括数据集。

方便你进行分析——如果你使用砖或砖社区版——我们是定期更新和提供各种COVID-19研究数据集(非商业)的目的。我们正在刷新数据集后,我们计划增加更多的结束时间:

/ databricks-datasets /(位置)	资源
/ . . / COVID / CORD-19 /	COVID-19开放研究数据集的挑战(CORD-19)
/ . . / COVID / CSSEGISandData /	2019年的小说《冠状病毒COVID-19 (2019 - ncov)由约翰霍普金斯CSSE数据存储库
/ . . / COVID / ESRI_hospital_beds /	明确医疗:美国医院病床
/ . . / COVID /健康/	健康(UW) COVID-19预测
/ . . / COVID / USAFacts /	美国的事实:确认\|死亡
/ . . / COVID / coronavirusdataset /	数据科学COVID-19 (DS4C)(韩国)
/ . . / COVID / covid-19-data /	纽约时报COVID-19数据集

BOB低频彩学习更多的与我们的探索性数据分析研讨会

由于积极的反馈从我们技术讨论后,我们很高兴地宣布了一系列研讨会在Python与COVID-19探索性数据分析数据集。在YouTube上的视频可以和笔记本都可以https://github.com/databricks/tech-talks为你选择的在您的环境中使用。

Python入门砖

这个车间显示您所需要的简单的步骤程序在Python中使用一个笔记本环境自由砖Community Edition。Python是一种流行的编程语言,因为它广泛的应用程序,包括数据分析、机器学习和web开发。本研讨会涵盖了主要的基本概念开始编码在Python中,专注于数据分析。您将了解不同类型的变量,对循环、函数和条件语句。不需要任何编程知识。

谁应该参加这个研讨会:任何人,每个人,CS学生甚至非技术人欢迎加入。不需要任何编程知识。如果你有了Python课程在过去,这对你可能太基本。

数据分析与熊猫

这个车间关注大熊猫,为数据分析和处理功能强大的开源Python包。在这个车间,您将了解如何读取数据,计算汇总统计数据,检查数据分布,进行基本的数据清洗和转换,情节简单的数据可视化。我们将使用约翰霍普金斯大学系统科学与工程中心(CSSE)新型冠状病毒(COVID-19)数据集。

谁应该参加这个研讨会:任何人和每个人都- CS学生甚至非技术人欢迎加入。基本的Python经验建议。

你需要什么:虽然不需要准备工作,我们所做的推荐基本的Python知识。如果你是新到Python,一个伟大的开始是我们的介绍了Python教程。

机器学习与scikit-learn

scikit-learn是机器学习的一个最流行的开源库数据科学的实践者。bob下载地址这个车间走过机器学习的基本知识,不同类型的机器学习,以及如何构建一个简单的机器学习模型。本研讨会的重点是技术应用和评估的机器学习方法,而不是背后的统计概念。我们将使用公布的数据约翰霍普金斯大学系统科学与工程中心(CSSE)新型冠状病毒(COVID-19)。

谁应该参加这个研讨会:任何人和每个人都- CS学生甚至非技术人欢迎加入。基本的Python和熊猫经验是必需的。如果你是新到Python和熊猫,看介绍了Python教程和注册数据分析与熊猫教程。

介绍Apache火花

本研讨会讨论Apache火花的基本面,最受欢迎的大数据处理引擎。在这个车间,您将学习如何摄取数据与火花,分析引发的UI,并更好地了解分布式计算。我们将使用公布的数据纽约时报。不需要先验知识的火花,但Python经验是强烈推荐。

谁应该参加这个研讨会:任何人和每个人都- CS学生甚至非技术人欢迎加入。基本的Python和熊猫经验是必需的。如果你是新到Python和熊猫,看介绍了Python教程。

获得了一些洞察COVID-19数据集

帮助你启动COVID-19数据集的分析,我们还包含额外的笔记本技术讲座/样品文件夹的纽约时报COVID-19数据集和2019年的小说《冠状病毒COVID-19 (2019 - ncov)由约翰霍普金斯CSSE数据存储库(可用和定期刷新/ databricks-datasets / COVID)。

的纽约时报COVID-19分析笔记本包括分析COVID-19病例和死亡的县。

比例COVID-19病例为华盛顿州前十县强调教育设施关闭时(来源:纽约时报COVID-19数据截止到4月14日,2020)”src= — 图6:比例COVID-19病例为华盛顿州前十县强调教育设施关闭时(来源:纽约时报COVID-19数据截止到4月14日,2020)

比例COVID-19病例为纽约州十强县强调教育设施关闭时(来源:纽约时报COVID-19数据截止到4月14日,2020)”src= — 图7:比例COVID-19病例为纽约州十强县强调教育设施关闭时(来源:纽约时报COVID-19数据截止到4月14日,2020)

一些观察的基础上JHU COVID-19分析笔记本电脑包括:

截至4月11日,2020年的模式JHU COVID-19日报报道已经改变了三次。前面的笔记本包含一个脚本,遍历每个文件,提取文件名(获取日期),并一起合并三种不同的模式。
它包括牵牛星可视化可视化的指数增长COVID-19相关病例和死亡的数量在美国通过滑块条静态和动态。

COVID-19确诊病例(县)和死亡(纬度、经度)使用Altair等值线图地图3/22 /约翰霍普金斯COVID-19数据集”src= — COVID-19确诊病例(县)和死亡(纬度、经度)使用Altair等值线图地图在3/22和4/11 /约翰霍普金斯COVID-19数据集

同时,纽约时报COVID-19分析笔记本包括县等值线图地图和酒吧图表COVID-19确诊病例和死亡(实际和分别与人口成正比)为期两周的窗口在当教育设施因华盛顿(2020年3月13日)和纽约(2020年3月18日)。

实际和比例COVID-19确诊病例(县)和死亡(纬度、经度)为期两周的窗口在教育设施闭包使用Altair等值线图地图和酒吧图表/纽约时报COVID-19数据集”src= — 实际和比例COVID-19确诊病例(县)和死亡(纬度、经度)为期两周的窗口在教育设施闭包使用Altair等值线图地图和酒吧图表/纽约时报COVID-19数据集

讨论

社区可以帮助在这个流行的数据提供至关重要的有关数据背后的模式:增长率确诊病例和死亡人数在每个县,对经济增长的影响,国家应用社会距离,了解我们受到社会距离的平曲线,等。而在其核心,COVID-19是一个医学问题,即我们如何拯救病人的生命,它也是流行病学问题理解数据将帮助医学界做出更好的决策,如我们如何使用数据作出更好的公共卫生政策来阻止人们成为病人。

O ' reilly学习引发的书

3.0免费第二版包括更新火花,包括熊猫udf的新的Python类型提示,新的日期/时间实现等。

免费下载

免费试着砖

开始

看到所有工程的博客的帖子