样本数据集

有各种各样的第三方提供的数据集,你可以上传你的砖工作区和使用。砖还提供了各种各样的数据集,已经安装DBFS在你的砖工作区。

第三方的样本数据集

砖有内置的工具来快速上传第三方样本数据集逗号分隔值(CSV)文件到砖工作区。一些流行的第三方样本数据集可用以CSV格式:

样本数据集

下载示例数据集作为一个CSV文件…

松鼠的人口普查

数据网页,点击公园的数据,松鼠数据,或故事

OWID数据收集

在GitHub库,点击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。

运用CSV数据集

在搜索结果页面,点击目标搜索结果,和旁边的CSV图标,点击下载

钻石(需要一个Kaggle账户)

在数据集的网页上数据选项卡,数据选项卡,diamonds.csv,单击下载图标。

纽约出租车旅行持续时间(需要一个Kaggle账户)

在数据集的网页上数据选项卡,sample_submission.zip,单击下载图标。找到数据集的CSV文件,提取下载的ZIP文件的内容。

不明飞行物(需要一个data.world账户)

数据集的网页,旁边nuforc_reports.csv,单击下载图标。

使用第三方砖工作空间的样本数据集,执行以下操作:

  1. 根据第三方的指示下载数据集作为一个CSV文件到您的本地机器上。

  2. CSV文件上传从您的本地机器到砖工作区中。

  3. 使用导入的数据,使用砖SQL查询数据。或者你可以使用笔记本作为一个DataFrame加载数据

砖数据集(databricks-datasets)

砖包括各种数据集的安装DBFS

请注意

砖的可用性和位置数据如有更改,恕不另行通知。

浏览数据砖数据集

浏览这些文件在数据科学与工程或砖机器学习从笔记本使用Python, Scala或R可以使用砖公用事业。这个例子中的代码列出了所有可用的砖的数据集。

显示(dbutilsfsls(' / databricks-datasets '))
显示(dbutilsfsls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”

统一目录数据集

统一目录提供的样本数据集样品目录。你可以检查这些数据集数据浏览界面直接使用和引用它们< catalog_name >, < database_name >。< table_name >模式。

nyctaxi数据库包含了表旅行,细节在纽约出租车乘坐存储使用三角洲湖。下面的代码示例返回所有记录在这个表:

选择*样品nyctaxi旅行

tpch数据库中包含的数据tpc - h基准测试。看到这个数据库表,运行:

显示样品tpch

砖的信息数据集

数据集的更多信息,您可以使用一个本地文件API打印出数据集自述(如果可用)通过使用Python, R,或Scala笔记本数据科学与工程或砖机器学习,如这段代码示例所示。

f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f())
scalaiofromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)

根据砖数据集创建一个表

这段代码示例演示了如何使用SQL在砖SQL查询编辑器中,或如何使用Python, Scala,或R在笔记本数据科学与工程或砖机器学习,根据砖数据集创建一个表:

创建默认的people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
图书馆(SparkR)sparkR.session()sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")