样本数据集

有各种各样的样本数据集由砖和可由第三方提供,您可以使用在你的砖工作空间。

统一目录数据集

统一目录提供的样本数据集样品目录。你可以检查这些数据集数据浏览界面并直接引用它们笔记本或在SQL编辑器通过使用<目录名称>。<模式名称>。<表名称>模式。

的nyctaxi模式(也称为一个数据库)包含了表旅行,细节出租车骑在纽约市。下面的语句返回第一个10记录在此表:

             选择*从样品。nyctaxi。旅行限制10
            

的tpch模式包含的数据tpc - h基准测试。列出该模式中的表,运行:

             显示表在样品。tpch
            

砖数据集(databricks-datasets)

砖包括各种样本数据集的安装DBFS。

请注意

砖的可用性和位置数据如有更改,恕不另行通知。

浏览数据砖数据集

浏览这些文件从Python, Scala或R笔记本,你可以使用砖公用事业。下面的代码列出了所有可用的砖的数据集。

               显示(dbutils。fs。ls(' / databricks-datasets '))
              

               显示(dbutils。fs。ls(“/ databricks-datasets”))
              

               %fsls“/ databricks-datasets”
              

砖的信息数据集

砖的数据集的更多信息,您可以使用一个本地文件API打印出数据集自述(如果可用)通过使用Python, R,或Scala笔记本在这段代码示例所示。

               f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f。读())
              

               scala。io。源。fromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
              

               图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)
              

根据砖数据集创建一个表

这段代码示例演示了如何使用SQLSQL编辑器,或如何使用SQL, Python, Scala或R笔记本电脑创建一个表,基于一个砖数据集:

               创建表默认的。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
              

               火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
              

               火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
              

               图书馆(SparkR)sparkR.session()sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
              

第三方在CSV格式样本数据集

砖有内置的工具来快速上传第三方样本数据集逗号分隔值(CSV)文件到砖工作区。一些流行的第三方样本数据集可用以CSV格式:

样本数据集		下载示例数据集作为一个CSV文件…
松鼠的人口普查		在数据网页,点击公园的数据,松鼠数据,或故事。
OWID数据收集		在GitHub库,点击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。
运用CSV数据集		在搜索结果页面,点击目标搜索结果,和旁边的CSV图标,点击下载。
钻石(需要一个Kaggle账户)		在数据集的网页上数据选项卡,数据选项卡,diamonds.csv,单击下载图标。
纽约出租车旅行持续时间(需要一个Kaggle账户)		在数据集的网页上数据选项卡,sample_submission.zip,单击下载图标。找到数据集的CSV文件,提取下载的ZIP文件的内容。
不明飞行物(需要一个data.world账户)		数据集的网页,旁边nuforc_reports.csv,单击下载图标。

使用第三方砖工作空间的样本数据集,执行以下操作:

根据第三方的指示下载数据集作为一个CSV文件到您的本地机器上。
CSV文件上传从您的本地机器到砖工作区中。
使用导入的数据,使用砖SQL查询数据。或者你可以使用笔记本来作为一个DataFrame加载数据。

第三方的样本数据集内库

一些第三方包括样本数据集内库,如Python包指数(PyPI)包或全面的R档案网络(凹口)包。有关更多信息,请参见库提供者的文档。

安装一个图书馆砖集群通过使用集群用户界面,看到的集群库。
安装一个Python库使用砖笔记本,请参阅Notebook-scoped Python库。
安装一个R库使用砖笔记本,看到的Notebook-scoped R库。