pyspark.sql.SparkSession

pyspark.sql。 SparkSession ( sparkContext:pyspark.context.SparkContext,jsparkSession:可选(py4j.java_gateway.JavaObject]=没有一个,选项:Dict(str,任何]={} )

入口点和数据集和DataFrame API编程火花。

可以使用SparkSession创造DataFrame,注册DataFrame表,对表执行SQL,缓存表,和读取铺文件。创建一个SparkSession,使用下面的建造者模式:

构建器

例子

> > >火花=SparkSession构建器\(“本地”)\浏览器名称(“字数统计”)\配置(“spark.some.config.option”,“有价值”)\getOrCreate()
> > >datetime进口datetime> > >pyspark.sql进口> > >火花=SparkSession(sc)> > >allTypes=sc并行化([(=1,年代=“字符串”,d=1.0,l=1,b=真正的,列表=(1,2,3),dict={“s”:0},=(一个=1),时间=datetime(2014年,8,1,14,1,5))))> > >df=allTypestoDF()> > >dfcreateOrReplaceTempView(“allTypes”)> > >火花sql(选择i + 1, d + 1, b,列表[1],dict (“s”),时间,行。一个““我从allTypes b > 0”)收集()[行((i + 1) = 2, (d + 1) = 2.0 (b) = False,名单[1]= 2,dict [s] = 0,时间= datetime。datetime(1 1 2014人,8日,14日,5),a = 1)> > >df抽样地图(λx:(x,x年代,xd,xl,xb,x时间,x一个,x列表))收集()[(1 '字符串' 1.0,1,真的,datetime。datetime(2014, 8, 1, 14, 1, 5), 1, [1, 2, 3])]

方法

createDataFrame(数据、模式…)

创建一个DataFrame从一个抽样一个列表,pandas.DataFrame或者一个numpy.ndarray

getActiveSession()

返回活动SparkSession当前线程返回的建设者

newSession()

返回一个新的SparkSession新会话,有单独的SQLConf注册临时视图和udf,但共享SparkContext和表缓存。

范围(开始、结束步骤,numPartitions])

创建一个DataFrame与单pyspark.sql.types.LongType列命名id,包含元素的范围从开始结束(独家)值一步

sql(* * kwargs sqlQuery)

返回一个DataFrame代表给定查询的结果。

停止()

阻止潜在的SparkContext

(表)

返回指定表的DataFrame

属性

构建器

目录

界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。

相依

为引发运行时配置界面。

返回一个DataFrameReader可以用来作为一个读取数据DataFrame

readStream

返回一个DataStreamReader可以用于读取数据流流DataFrame

sparkContext

返回底层SparkContext

返回一个StreamingQueryManager让所有的管理StreamingQuery实例的活跃上下文。

udf

返回一个UDFRegistrationUDF登记。

版本

火花的版本运行该应用程序。