Apache Spark API参考
Databricks构建在Apache Spark之上,Apache Spark是一个用于大bob体育亚洲版数据和机器学习的统一分析引擎。有关更多信息,请参见Apache Spark on Databricks.
Apache Spark有DataFrame api,用于在大型数据集上操作,其中包括超过100个操作符。有关更多信息,请参见PySpark API参考.
PySpark apiPython开发人员。看到教程:在Databricks上使用PySpark DataFrames.关键类包括:
SparkSession-使用Dataset和DataFrame API编程Spark的入口点。
DataFrame-分组为指定列的分布式数据集合。看到DataFrames而且DataFrame-based MLlib.
SparkR概述为R开发人员。关键类包括:
SparkSession- SparkSession是SparkR的入口点。看到起点:SparkSession.
SparkDataFrame-分组为指定列的分布式数据集合。看到数据集和数据框架,创建DataFrames,创建SparkDataFrames.
Scala api.关键类包括:
SparkSession-使用Dataset和DataFrame API编程Spark的入口点。看到起点:SparkSession.
数据集-领域特定对象的强类型集合,可以使用函数或关系操作并行转换。每一个
数据集
也有一个叫做DataFrame的非类型化视图,它是数据集
的行.看到数据集和数据框架,创建数据集,创建DataFrames,DataFrame功能.
Java api.关键类包括:
SparkSession-使用Dataset和DataFrame API编程Spark的入口点。看到起点:SparkSession.
数据集-领域特定对象的强类型集合,可以使用函数或关系操作并行转换。每一个
数据集
也有一个叫做DataFrame的非类型化视图,它是数据集
的行.看到数据集和数据框架,创建数据集,创建DataFrames,DataFrame功能.
要了解如何在Databricks上使用Apache Spark api,请参见:
对于Java,可以将Java代码作为JAR的工作.