pyspark.sql.SparkSession¶

类 pyspark.sql。 SparkSession ( sparkContext:pyspark.context.SparkContext,jsparkSession:可选(py4j.java_gateway.JavaObject]=没有一个,选项:Dict(str,任何]={} ) ¶

入口点和数据集和DataFrame API编程火花。

可以使用SparkSession创造DataFrame,注册DataFrame表,对表执行SQL,缓存表,和读取铺文件。创建一个SparkSession,使用下面的建造者模式:

构建器 ¶

例子

           > > >火花=SparkSession。构建器\…。主(“本地”)\…。浏览器名称(“字数统计”)\…。配置(“spark.some.config.option”,“有价值”)\…。getOrCreate()
          

           > > >从datetime进口datetime> > >从pyspark.sql进口行> > >火花=SparkSession(sc)> > >allTypes=sc。并行化([行(我=1,年代=“字符串”,d=1.0,l=1,…b=真正的,列表=(1,2,3),dict={“s”:0},行=行(一个=1),…时间=datetime(2014年,8,1,14,1,5))))> > >df=allTypes。toDF()> > >df。createOrReplaceTempView(“allTypes”)> > >火花。sql(选择i + 1, d + 1, b,列表[1],dict (“s”),时间,行。一个“…“我从allTypes b > 0”)。收集()[行((i + 1) = 2, (d + 1) = 2.0 (b) = False,名单[1]= 2,dict [s] = 0,时间= datetime。datetime(1 1 2014人,8日,14日,5),a = 1)> > >df。抽样。地图(λx:(x。我,x。年代,x。d,x。l,x。b,x。时间,x。行。一个,x。列表))。收集()[(1 '字符串' 1.0,1,真的,datetime。datetime(2014, 8, 1, 14, 1, 5), 1, [1, 2, 3])]
          

方法

`createDataFrame`(数据、模式…)	创建一个`DataFrame`从一个`抽样`一个列表,`pandas.DataFrame`或者一个`numpy.ndarray`。
`getActiveSession`()	返回活动`SparkSession`当前线程返回的建设者
`newSession`()	返回一个新的`SparkSession`新会话,有单独的SQLConf注册临时视图和udf,但共享`SparkContext`和表缓存。
`范围`(开始、结束步骤,numPartitions])	创建一个`DataFrame`与单`pyspark.sql.types.LongType`列命名`id`,包含元素的范围从`开始`来`结束`(独家)值`一步`。
`sql`(* * kwargs sqlQuery)	返回一个`DataFrame`代表给定查询的结果。
`停止`()	阻止潜在的`SparkContext`。
`表`(表)	返回指定表的`DataFrame`。

属性

`构建器`
`目录`	界面,通过它,用户可以创建、删除、更改或查询底层数据库、表、函数等。
`相依`	为引发运行时配置界面。
`读`	返回一个`DataFrameReader`可以用来作为一个读取数据`DataFrame`。
`readStream`	返回一个`DataStreamReader`可以用于读取数据流流`DataFrame`。
`sparkContext`	返回底层`SparkContext`。
`流`	返回一个`StreamingQueryManager`让所有的管理`StreamingQuery`实例的活跃这上下文。
`udf`	返回一个`UDFRegistration`UDF登记。
`版本`	火花的版本运行该应用程序。

以前的

核心类

下一个

pyspark.sql.Catalog