样本数据集
有各种各样的样本数据集由砖和可由第三方提供,您可以使用在你的砖工作空间。
统一目录数据集
统一目录提供的样本数据集样品
目录。你可以检查这些数据集数据浏览界面并直接引用它们笔记本或在SQL编辑器通过使用<目录名称>。<模式名称>。<表名称>
模式。
的nyctaxi
模式(也称为一个数据库)包含了表旅行
,细节出租车骑在纽约市。下面的语句返回第一个10记录在此表:
选择*从样品。nyctaxi。旅行限制10
的tpch
模式包含的数据tpc - h基准测试。列出该模式中的表,运行:
显示表在样品。tpch
砖数据集(databricks-datasets)
砖包括各种样本数据集的安装DBFS。
请注意
砖的可用性和位置数据如有更改,恕不另行通知。
浏览数据砖数据集
浏览这些文件从Python, Scala或R笔记本,你可以使用砖公用事业。下面的代码列出了所有可用的砖的数据集。
显示(dbutils。fs。ls(' / databricks-datasets '))
显示(dbutils。fs。ls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”
砖的信息数据集
砖的数据集的更多信息,您可以使用一个本地文件API打印出数据集自述
(如果可用)通过使用Python, R,或Scala笔记本在这段代码示例所示。
f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f。读())
scala。io。源。fromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)
根据砖数据集创建一个表
这段代码示例演示了如何使用SQLSQL编辑器,或如何使用SQL, Python, Scala或R笔记本电脑创建一个表,基于一个砖数据集:
创建表默认的。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
图书馆(SparkR)sparkR.session()sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
第三方在CSV格式样本数据集
砖有内置的工具来快速上传第三方样本数据集逗号分隔值(CSV)文件到砖工作区。一些流行的第三方样本数据集可用以CSV格式:
样本数据集 |
下载示例数据集作为一个CSV文件… |
|
---|---|---|
在数据网页,点击公园的数据,松鼠数据,或故事。 |
||
在GitHub库,点击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。 |
||
在搜索结果页面,点击目标搜索结果,和旁边的CSV图标,点击下载。 |
||
在数据集的网页上数据选项卡,数据选项卡,diamonds.csv,单击下载图标。 |
||
纽约出租车旅行持续时间(需要一个Kaggle账户) |
在数据集的网页上数据选项卡,sample_submission.zip,单击下载图标。找到数据集的CSV文件,提取下载的ZIP文件的内容。 |
|
不明飞行物(需要一个data.world账户) |
数据集的网页,旁边nuforc_reports.csv,单击下载图标。 |
使用第三方砖工作空间的样本数据集,执行以下操作:
根据第三方的指示下载数据集作为一个CSV文件到您的本地机器上。
CSV文件上传从您的本地机器到砖工作区中。
使用导入的数据,使用砖SQL查询数据。或者你可以使用笔记本来作为一个DataFrame加载数据。
第三方的样本数据集内库
一些第三方包括样本数据集内库,如Python包指数(PyPI)包或全面的R档案网络(凹口)包。有关更多信息,请参见库提供者的文档。
安装一个Python库使用砖笔记本,请参阅Notebook-scoped Python库。
安装一个R库使用砖笔记本,看到的Notebook-scoped R库。