样本数据集

有各种各样的样本数据集由砖和可由第三方提供,您可以使用在你的砖工作空间

统一目录数据集

统一目录提供的样本数据集样品目录。你可以检查这些数据集数据浏览界面并直接引用它们笔记本或在SQL编辑器通过使用<目录名称>。<模式名称>。<表名称>模式。

nyctaxi模式(也称为一个数据库)包含了表旅行,细节出租车骑在纽约市。下面的语句返回第一个10记录在此表:

选择*样品nyctaxi旅行限制10

tpch模式包含的数据tpc - h基准测试。列出该模式中的表,运行:

显示样品tpch

砖数据集(databricks-datasets)

砖包括各种样本数据集的安装DBFS

请注意

砖的可用性和位置数据如有更改,恕不另行通知。

浏览数据砖数据集

浏览这些文件从Python, Scala或R笔记本,你可以使用砖公用事业。下面的代码列出了所有可用的砖的数据集。

显示(dbutilsfsls(' / databricks-datasets '))
显示(dbutilsfsls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”

砖的信息数据集

砖的数据集的更多信息,您可以使用一个本地文件API打印出数据集自述(如果可用)通过使用Python, R,或Scala笔记本在这段代码示例所示。

f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f())
scalaiofromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)

根据砖数据集创建一个表

这段代码示例演示了如何使用SQLSQL编辑器,或如何使用SQL, Python, Scala或R笔记本电脑创建一个表,基于一个砖数据集:

创建默认的people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
图书馆(SparkR)sparkR.session()sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")

第三方在CSV格式样本数据集

砖有内置的工具来快速上传第三方样本数据集逗号分隔值(CSV)文件到砖工作区。一些流行的第三方样本数据集可用以CSV格式:

样本数据集

下载示例数据集作为一个CSV文件…

松鼠的人口普查

数据网页,点击公园的数据,松鼠数据,或故事

OWID数据收集

在GitHub库,点击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。

运用CSV数据集

在搜索结果页面,点击目标搜索结果,和旁边的CSV图标,点击下载

钻石(需要一个Kaggle账户)

在数据集的网页上数据选项卡,数据选项卡,diamonds.csv,单击下载图标。

纽约出租车旅行持续时间(需要一个Kaggle账户)

在数据集的网页上数据选项卡,sample_submission.zip,单击下载图标。找到数据集的CSV文件,提取下载的ZIP文件的内容。

不明飞行物(需要一个data.world账户)

数据集的网页,旁边nuforc_reports.csv,单击下载图标。

使用第三方砖工作空间的样本数据集,执行以下操作:

  1. 根据第三方的指示下载数据集作为一个CSV文件到您的本地机器上。

  2. CSV文件上传从您的本地机器到砖工作区中。

  3. 使用导入的数据,使用砖SQL查询数据。或者你可以使用笔记本作为一个DataFrame加载数据

第三方的样本数据集内库

一些第三方包括样本数据集内,如Python包指数(PyPI)包或全面的R档案网络(凹口)包。有关更多信息,请参见库提供者的文档。