开始
加载和管理数据
处理数据
政府
引用和资源
2023年2月17日更新
给我们反馈
砖运行时包括熊猫标准的Python包,允许您创建和利用熊猫DataFrames砖笔记本和工作。
在砖运行时的10.0及以上,熊猫API火花提供熟悉的熊猫命令之上PySpark DataFrames。你也可以熊猫和PySpark之间转换DataFrames。
Apache火花包括Arrow-optimized执行Python的形式逻辑熊猫api函数,允许用户直接应用熊猫转换PySpark DataFrames。Apache火花也支持熊猫udf使用类似的Arrow-optimizations任意Python中定义的用户功能。
您可以使用熊猫将数据存储在许多不同的位置数据砖。你的能力来存储和加载数据从一些位置取决于配置管理员设定的工作空间。
请注意
砖建议将生产数据存储在云存储对象。看到谷歌云存储。
快速勘探和数据不敏感信息,您可以安全地使用相对路径或保存数据DBFS,比如下面的例子:
进口熊猫作为pddf=pd。DataFrame([[“一个”,1),(“b”,2),(“c”,3]])df。to_csv(”。/ relative_path_test.csv”)df。to_csv(“/ dbfs / dbfs_test.csv”)
你可以探索文件写入DBFS和% fs神奇的命令,如以下示例。请注意,/ dbfs这些命令的目录是根路径。
% fs
/ dbfs
% fs ls
当您保存相对路径,文件的位置取决于你执行你的代码的地方。如果你使用砖笔记本,您的数据文件保存到卷存储集群的司机。数据存储在这个位置是被永久删除,当集群终止。如果您正在使用砖回购启用了任意文件支持,数据保存当前项目的根源。在这两种情况下,您可以探索使用的文件% sh神奇的命令,允许简单的bash操作相对于当前的根目录,如以下示例:
% sh
% sh ls
对砖存储各种文件的更多信息,参见如何处理文件数据砖吗。
砖提供了大量的选项为探索促进上传数据到工作区。熊猫的首选方法将数据加载不同取决于你如何加载数据到工作区。
如果你有小数据文件存储在本地机器上与笔记本电脑,你可以上传你的数据和代码一起回购。然后,您可以使用相对路径加载数据文件。
砖提供广泛的基于ui选项数据加载。大多数这些选项δ表存储你的数据。你可以读一本差值表火花DataFrame,然后它转换为一个熊猫DataFrame。
如果你有使用DBFS或相对路径保存的数据文件,您可以使用DBFS或相对路径重新加载这些数据文件。下面的代码提供了一个示例:
进口熊猫作为pddf=pd。read_csv(”。/ relative_path_test.csv”)df=pd。read_csv(“/ dbfs / dbfs_test.csv”)
砖建议将生产数据存储在云存储对象。看到使用Amazon S3中的数据。
如果你在一个联合Catalog-enabled工作空间,您可以访问云存储与外部的位置。看到管理外部位置和存储凭证。
你可以直接从S3数据加载使用熊猫和一个完全合格的URL。您需要提供访问云数据云凭证。
df=pd。read_csv(f“s3: / /{bucket_name}/{file_path}”,storage_options={“关键”:aws_access_key_id,“秘密”:aws_secret_access_key,“令牌”:aws_session_token})