加入我们的四部分学习系列:有抱负的数据科学家的数据分析入门。这个自定节奏的在线研讨会系列适用于任何对学习数据分析感兴趣的人。不需要以前的编程经验。
每个研讨会页面都包含会议视频记录、文稿、演讲者信息以及访问笔记本和资源的GitHub链接。我们建议你从第一部分开始《Python导论》,然后按顺序继续,因为每个研讨会都是建立在上一个基础上的。
在本研讨会中,我们将向您展示使用免费的Databricks Community Edition上的笔记本环境在Python中编程所需的简单步骤。本研讨会涵盖了开始使用Python编码所必需的主要基本概念,重点是数据分析。不需要预先的编程知识。
这个研讨会是关于pandas的,这是一个用于数据分析和操作的强大的开源Python包。在本研讨会中,您将学习如何读取数据、计算汇总统计信息、检查数据分布、执行基本的数据清理和转换,以及绘制简单的可视化图。虽然不需要任何准备工作,但我们建议您了解基本的python知识。请观看第一部分,Python介绍以了解Python。
Scikit-learn是数据科学从业者中最受欢迎的开源机器学习库之一。本次研讨会将介绍什么是机器学习,不同类型的机器学习,以及如何建立一个简单的机器学习模型。本次研讨会的重点是应用和评估机器学习方法的技术,而不是它们背后的统计概念。
本研讨会涵盖了最流行的大数据处理引擎Apache Spark的基础知识。在本课程中,您将学习如何使用Spark摄取数据,分析Spark UI,并更好地理解分布式计算。不需要Spark的先验知识,但强烈建议有Python经验。