扩大和读取Zip压缩文件
您可以使用解压缩
Bash命令扩展文件或目录文件的Zip压缩。如果您下载或遇到一个文件或目录的结局. zip
在继续之前,扩大数据。
请注意
Apache火花提供了本地与压缩铺交互文件编解码器。默认情况下,铺砖结尾写的文件.snappy.parquet
,表明他们使用时髦的压缩。
如何解压缩数据
的砖% sh
神奇的命令可以执行任意的Bash代码,包括解压缩
命令。
下面的例子使用了一个压缩从互联网下载的CSV文件。您还可以使用砖实用程序将文件移动到司机体积扩大之前。看到从互联网上下载数据和砖公用事业。
下面的代码使用旋度
下载,然后解压缩
扩大数据:
% sh / tmp / LoanStats3a.csv curl https://resources.lendingclub.com/LoanStats3a.csv.zip——输出。zip解压/ tmp / LoanStats3a.csv.zip
使用dbutils扩展文件移回云对象存储允许平行阅读,如以下几点:
dbutils。fs。mv(“文件:/ LoanStats3a.csv”,“dbfs: / tmp / LoanStats3a.csv”)
在这个例子中,下载的数据有一个评论在第一行和第二头。现在数据已经扩展和移动,使用标准的选择阅读CSV文件,如以下示例:
df=火花。读。格式(“csv”)。选项(“skipRows”,1)。选项(“头”,真正的)。负载(“/ tmp / LoanStats3a.csv”)显示(df)