砖的Python开发人员
本节提供了一个指导发展的笔记本,在砖使用Python语言的工作。第一小节提供了常见的工作流和任务教程的链接。第二小节提供链接到api、图书馆和关键工具。
开始的基本工作流程是:
导入代码:从文件中导入您自己的代码或者Git回购或试一试下面列出的教程。砖建议使用交互式学习砖笔记本。
一个集群上运行您的代码:要么自己创建一个集群,或者确保你有权限使用一个共享的集群。附上你的笔记本到集群,并运行笔记本。
除此之外,可以拓展到更具体的主题:
教程
以下教程提供了示例代码和笔记本学习常见的工作流。看到导入一个笔记本笔记本的例子说明导入到您的工作区。
交互式数据科学和机器学习
开始使用Apache火花DataFrames数据准备和分析:教程:使用PySpark DataFrames砖
教程:端到端毫升模型砖。附加的例子,请参阅教程:开始使用毫升和MLflow指南Python快速入门。
砖AutoML让您快速掌握开发机器学习模型在自己的数据集。与完整的玻璃盒子的方法生成笔记本机器学习工作流程,你可以克隆,修改和重新运行。
工程数据
教程:使用PySpark DataFrames砖提供了一个介绍,以帮助您了解Apache火花DataFrames数据准备和分析。
在Python中调试笔记本
笔记本的例子说明了如何使用Python调试器(pdb)砖笔记本。使用Python调试器,您必须运行砖运行时的11.2或以上。
与砖运行时的12.1及以上,可以使用变量的探险家跟踪Python变量的当前值在笔记本上的UI。您可以使用变量explorer观察Python变量的值在步骤断点。
请注意
断点()
是不支持在IPython因此在砖笔记本电脑不工作。您可以使用进口pdb;pdb.set_trace ()
而不是断点()
。
参考
以下部分列出关键特性和技巧来帮助你开始开发与Python砖。
Python api
运行的Python代码之外的砖砖内通常可以运行,反之亦然。如果你有现有的代码,将其导入数据砖开始。看到管理代码与笔记本和砖回购下面的细节。
砖可以运行的单机和Python分发工作负载。对于单机计算,您可以使用Python api和库像往常一样;例如,熊猫和scikit-learn将“只是工作。“对于Python分发工作负载,砖提供了两个流行的开箱即用的API:大熊猫火花,PySpark API。
熊猫API火花
请注意
的考拉开源项目现在建议切换到熊猫API火花。熊猫API火花可以在集群上运行砖运行时的10.0(不支持)及以上。为集群运行砖运行时9.1 LTS下面,请使用考拉代替。
熊猫是一个Python包数据科学家常用的数据分析和处理。但是,大熊猫不规模大数据。熊猫API火花填补这一差距通过提供pandas-equivalent api, Apache火花。这开源API是一个理想选择数据科学家熟悉熊猫但不是Apache火花。
管理代码与笔记本和砖回购
砖的笔记本支持Python。这些笔记本提供Jupyter的功能相似,但随着添加如内置使用大数据可视化,Apache火花集成调试和性能监控、跟踪和MLflow集成机器学习实验。开始的导入一个笔记本。一旦你获得一个集群,你可以附加一个笔记本集群和运行笔记本。
提示
完全重置你的笔记本,它可以是有用的重启iPython内核。对于Jupyter用户来说,“重新启动内核”选项在Jupyter对应分离和重新砖的笔记本。重新启动内核在Python笔记本,点击计算选择器在笔记本上附加工具栏和悬停在集群或SQL仓库列表中显示一个菜单。选择分离和重新。这分离的笔记本从集群和再植,重新启动Python的过程。
砖回购允许用户同步笔记本和其他文件和Git存储库。砖回购有助于代码版本控制和协作,它可以简化代码的完整存储库导入数据砖,查看过去的笔记本版本,与IDE集成开发。开始的克隆一个偏远的Git存储库。您可以打开或创建笔记本存储库的克隆,把笔记本一个集群,运行笔记本。
集群和库
砖集群为任何规模的集群提供计算管理:从单节点集群到大型集群。您可以自定义集群硬件和库根据您的需要。通过数据科学家通常会开始工作创建一个集群或使用现有的共享的集群。一旦你获得一个集群,你可以附加一个笔记本集群或运行工作在集群上。
砖集群使用砖运行时,它提供了开箱即用的许多流行的库,包括Apache火花,三角洲湖,熊猫,等等。你也可以安装其他第三方或自定义Python库使用笔记本和工作。
从默认的图书馆砖运行时。使用介绍砖运行时机器学习对机器学习的工作负载。预先安装的库的完整列表,请参阅砖的运行时版本。
定制您的环境中使用Notebook-scoped Python库,它允许您修改您的笔记本电脑或工作环境库从PyPI或其他存储库。的
%皮普安装my_library
神奇的命令安装my_library
当前连接集群中的所有节点,而不干扰其他工作负载在共享的集群。安装将非python库作为集群库根据需要。
更多细节,请参阅库。
工作
你可以自动化Python如期工作负载或触发创建和运行数据砖的工作在砖。工作可以运行笔记本,Python脚本,和Python轮子。
提示
安排一个Python脚本,而不是笔记本,使用spark_python_task
磁场下任务
身体的创建工作的要求。
机器学习
砖支持多种机器学习(ML)工作负载,包括传统ML表格数据,深度学习计算机视觉和自然语言处理,推荐系统中,图形分析等等。关于机器学习的一般信息在砖上,看到的介绍砖机器学习。
对于ML算法,您可以使用预先安装的库中介绍砖运行时机器学习,其中包括流行的Python工具如scikit-learn TensorFlow, Keras, PyTorch, Apache火花MLlib, XGBoost。你也可以安装自定义库。
对机器学习操作(MLOps),砖提供了一个开源库MLflow托管服务。bob下载地址MLflow跟踪让您记录模型开发和保存模型可重用的格式;的MLflow模型注册允许您管理和自动化模型对生产的促进;和工作和模型服务允许托管模型作为批处理和流媒体工作和休息的端点。的更多信息和示例,请参见MLflow指南或者是MLflow Python API文档。
开始使用常见的机器学习工作负载,看到以下页面:
培训与MLflow scikit-learn和跟踪:10分钟教程:机器学习与scikit-learn砖
培训深入学习模型:深度学习
Hyperparameter调优:并行化scikit-learn和MLflow hyperparameter调优
ide、开发工具和sdk
除了发展在砖笔记本的Python代码,您可以使用集成开发环境(ide)开发外部如PyCharm Jupyter, Visual Studio代码。外部发展环境和砖之间同步工作,有几个选项:
代码:你可以使用Git同步代码。看到Git与砖回购的集成。
库和工作:您可以创建外部库(如车轮)和上传数据砖。这些库可以在进口砖笔记本,或者他们可以用来创造就业机会。看到库和创建和运行数据砖的工作。
远程机器上执行:你可以从你当地的IDE运行代码交互开发和测试。IDE可以与砖砖上执行Apache火花和大规模计算集群。学会使用砖连接创建这个连接,看到的使用ide砖。
砖的sdk提供了一组支持自动化和集成与外部工具。您可以使用砖sdk管理资源集群和图书馆、代码和其他工作区对象,工作负载和工作等。看到砖sdk。
在ide的更多信息,开发工具,和sdk,看到开发工具和指导。
额外的资源
的砖学院提供自学和教师指导课程在许多话题。
功能,支持PySpark和熊猫之间的互操作性
Python和SQL数据库连接
的Python的砖SQL的连接器允许您使用Python代码上运行SQL命令砖资源。
pyodbc允许您从您的本地Python代码通过ODBC连接到数据存储在数据砖Lakehouse。
常见问题和建议对于Python移动工作负载数据砖