核心类

SparkSession(sparkContext [jsparkSession,…)

入口点和数据集和DataFrame API编程火花。

目录(sparkSession)

面向用户的目录的API,可以通过SparkSession.catalog

DataFrame(jdf sql_ctx)

一个分布式数据分为命名列的集合。

(jc)

在DataFrame一列。

观察([名字])

类来观察(命名)指标DataFrame

一行在DataFrame

GroupedData(jgd df)

一组的聚合方法DataFrame,由DataFrame.groupBy ()

PandasCogroupedOps(阻止gd2 gd1)

一两的逻辑分组GroupedData,由GroupedData.cogroup ()

DataFrameNaFunctions(df)

处理缺失数据的功能DataFrame

DataFrameStatFunctions(df)

功能和统计功能DataFrame

窗口

在DataFrames效用函数定义窗口。

DataFrameReader(火花)

接口用于负载DataFrame从外部存储系统(如。

DataFrameWriter(df)

接口用于编写一个DataFrame(如外部存储系统。