样本数据集
有各种各样的第三方提供的数据集,你可以上传你的砖工作区和使用。砖还提供了各种各样的数据集,已经安装DBFS在你的砖工作区。
第三方的样本数据集
砖有内置的工具来快速上传第三方样本数据集逗号分隔值(CSV)文件到砖工作区。一些流行的第三方样本数据集可用以CSV格式:
样本数据集 |
下载示例数据集作为一个CSV文件… |
|
---|---|---|
在数据网页,点击公园的数据,松鼠数据,或故事。 |
||
在GitHub库,点击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。 |
||
在搜索结果页面,点击目标搜索结果,和旁边的CSV图标,点击下载。 |
||
在数据集的网页上数据选项卡,数据选项卡,diamonds.csv,单击下载图标。 |
||
纽约出租车旅行持续时间(需要一个Kaggle账户) |
在数据集的网页上数据选项卡,sample_submission.zip,单击下载图标。找到数据集的CSV文件,提取下载的ZIP文件的内容。 |
|
不明飞行物(需要一个data.world账户) |
数据集的网页,旁边nuforc_reports.csv,单击下载图标。 |
使用第三方砖工作空间的样本数据集,执行以下操作:
根据第三方的指示下载数据集作为一个CSV文件到您的本地机器上。
CSV文件上传从您的本地机器到砖工作区中。
使用导入的数据,使用砖SQL查询数据。或者你可以使用笔记本来作为一个DataFrame加载数据。
浏览数据砖数据集
浏览这些文件在数据科学与工程或砖机器学习从笔记本使用Python, Scala或R可以使用砖公用事业。这个例子中的代码列出了所有可用的砖的数据集。
显示(dbutils。fs。ls(' / databricks-datasets '))
显示(dbutils。fs。ls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”
统一目录数据集
统一目录提供的样本数据集样品
目录。你可以检查这些数据集数据浏览界面直接使用和引用它们< catalog_name >, < database_name >。< table_name >
模式。
的nyctaxi
数据库包含了表旅行
,细节在纽约出租车乘坐存储使用三角洲湖。下面的代码示例返回所有记录在这个表:
选择*从样品。nyctaxi。旅行
的tpch
数据库中包含的数据tpc - h基准测试。看到这个数据库表,运行:
显示表在样品。tpch
砖的信息数据集
数据集的更多信息,您可以使用一个本地文件API打印出数据集自述
(如果可用)通过使用Python, R,或Scala笔记本数据科学与工程或砖机器学习,如这段代码示例所示。
f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f。读())
scala。io。源。fromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)
根据砖数据集创建一个表
这段代码示例演示了如何使用SQL在砖SQL查询编辑器中,或如何使用Python, Scala,或R在笔记本数据科学与工程或砖机器学习,根据砖数据集创建一个表:
创建表默认的。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花。sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
图书馆(SparkR)sparkR.session()sql(“创建表默认。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")