pyspark.sql.SparkSession¶
-
类
pyspark.sql。
SparkSession
( sparkContext:pyspark.context.SparkContext,jsparkSession:可选(py4j.java_gateway.JavaObject]=没有一个,选项:Dict(str,任何]={} ) ¶ -
入口点和数据集和DataFrame API编程火花。
可以使用SparkSession创造
DataFrame
,注册DataFrame
表,对表执行SQL,缓存表,和读取铺文件。创建一个SparkSession
,使用下面的建造者模式:-
构建器
¶
例子
> > >火花=SparkSession。构建器\…。主(“本地”)\…。浏览器名称(“字数统计”)\…。配置(“spark.some.config.option”,“有价值”)\…。getOrCreate()
> > >从datetime进口datetime> > >从pyspark.sql进口行> > >火花=SparkSession(sc)> > >allTypes=sc。并行化([行(我=1,年代=“字符串”,d=1.0,l=1,…b=真正的,列表=(1,2,3),dict={“s”:0},行=行(一个=1),…时间=datetime(2014年,8,1,14,1,5))))> > >df=allTypes。toDF()> > >df。createOrReplaceTempView(“allTypes”)> > >火花。sql(选择i + 1, d + 1, b,列表[1],dict (“s”),时间,行。一个“…“我从allTypes b > 0”)。收集()[行((i + 1) = 2, (d + 1) = 2.0 (b) = False,名单[1]= 2,dict [s] = 0,时间= datetime。datetime(1 1 2014人,8日,14日,5),a = 1)> > >df。抽样。地图(λx:(x。我,x。年代,x。d,x。l,x。b,x。时间,x。行。一个,x。列表))。收集()[(1 '字符串' 1.0,1,真的,datetime。datetime(2014, 8, 1, 14, 1, 5), 1, [1, 2, 3])]
方法
createDataFrame
(数据、模式…)创建一个
DataFrame
从一个抽样
一个列表,pandas.DataFrame
或者一个numpy.ndarray
。返回活动
SparkSession
当前线程返回的建设者返回一个新的
SparkSession
新会话,有单独的SQLConf注册临时视图和udf,但共享SparkContext
和表缓存。范围
(开始、结束步骤,numPartitions])创建一个
DataFrame
与单pyspark.sql.types.LongType
列命名id
,包含元素的范围从开始
来结束
(独家)值一步
。sql
(* * kwargs sqlQuery)返回一个
DataFrame
代表给定查询的结果。停止
()阻止潜在的
SparkContext
。表
(表)返回指定表的
DataFrame
。属性
界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。
为引发运行时配置界面。
返回一个
DataFrameReader
可以用来作为一个读取数据DataFrame
。返回一个
DataStreamReader
可以用于读取数据流流DataFrame
。返回底层
SparkContext
。返回一个
StreamingQueryManager
让所有的管理StreamingQuery
实例的活跃这上下文。返回一个
UDFRegistration
UDF登记。火花的版本运行该应用程序。
-