从互联网上下载数据
您可以使用砖笔记本下载的数据从公共url体积存储集群的司机。如果你从云访问数据对象存储,直接访问数据与Apache火花提供更好的结果。
砖集群提供通用计算,允许您另外Apache火花命令运行任意代码。因为任意命令执行对集群的根目录,而不是DBFS根,你必须在阅读之前将下载的数据移动到一个新的位置与Apache火花。
请注意
一些工作空间配置可能阻止访问公共网络。咨询您的工作区管理员如果你需要扩展网络访问。
下载一个文件,Bash、Python或Scala
砖不提供任何本机工具从互联网下载数据,但是您可以使用开源工具支持的语言。bob下载地址下面的例子使用包Bash、Python和Scala下载相同的文件。
% sh curl https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows。csv / tmp / curl-subway.csv——输出
进口urlliburllib。请求。urlretrieve(“https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv”,“/ tmp / python-subway.csv”)
进口java。净。URL进口java。io。文件进口org。apache。下议院。io。FileUtilsFileUtils。copyURLToFile(新URL(“https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv”),新文件(“/ tmp / scala-subway.csv”))
因为这些文件下载到存储卷附加到司机使用% sh
看到这些文件,就像下面的例子:
% sh ls / tmp /
您可以使用Bash命令预览文件下载的内容,就像下面的例子:
% sh / tmp / curl-subway.csv负责人