pyspark.sql.DataFrame

pyspark.sql。 DataFrame ( jdf:py4j.java_gateway.JavaObject,sql_ctx:联盟(SQLContext,SparkSession] )

一个分布式数据分为命名列的集合。

一个DataFrame相当于在火花SQL关系表,可以创建和使用各种功能SparkSession:

=火花拼花(“…”)

一旦创建了,它可以使用各种操纵领域特定语言(DSL)中定义的函数:DataFrame,

选择的列DataFrame使用应用方法:

ageCol=年龄

一个更具体的例子:

#创建使用SparkSession DataFrame=火花拼花(“…”)部门=火花拼花(“…”)过滤器(年龄>30.)加入(部门,deptId= =部门id)\groupBy(部门的名字,“性别”)gg({“工资”:“平均”,“年龄”:“马克斯”})

方法

gg(* exprs)

总对整个DataFrame没有组(简称.agg df.groupBy () ())。

别名(别名)

返回一个新的DataFrame设置一个别名。

approxQuantile(relativeError坳,概率)

计算的近似数值列的分位数DataFrame

缓存()

持续的DataFrame使用默认存储水平(MEMORY_AND_DISK)。

检查点((渴望))

返回一个检查点的版本DataFrame

合并(numPartitions)

返回一个新的DataFrame已经完全numPartitions分区。

colRegex(colName)

基于列的选择列名称指定为一个正则表达式并返回它

收集()

返回所有记录的列表

相关系数(col1 col2[方法])

计算两列的相关性DataFrame作为一个双精度值。

()

返回的行数DataFrame

(col1 col2)

计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。

createGlobalTempView(名字)

创建一个全局临时视图DataFrame

createOrReplaceGlobalTempView(名字)

创建或替换一个全局临时视图使用给定的名称。

createOrReplaceTempView(名字)

创建或替换本地临时视图DataFrame

createTempView(名字)

创建一个本地临时视图DataFrame

crossJoin(其他)

返回笛卡儿积与另一个DataFrame

交叉表(col1 col2)

计算两两频率给定的表列。

多维数据集(*峡路)

为当前创建多维数据集DataFrame使用指定的列,所以我们可以运行聚合。

描述(*峡路)

计算基本统计数字和字符串列。

截然不同的()

返回一个新的DataFrame包含不同的行DataFrame

下降(*峡路)

返回一个新的DataFrame这滴指定的列。

dropDuplicates((子集))

返回一个新的DataFrame删除重复的行,选择只考虑某些列。

drop_duplicates((子集))

drop_duplicates ()是一个别名dropDuplicates ()

dropna([如何颠簸,子集])

返回一个新的DataFrame省略具有零值的行。

exceptAll(其他)

返回一个新的DataFrame包含在这行DataFrame但不是在另一个DataFrame同时保留副本。

解释([扩展、模式])

打印到控制台(逻辑和物理)计划用于调试目的。

fillna(价值[,]子集)

替换空值,别名na.fill ()

过滤器(条件)

过滤器使用给定的条件行。

第一个()

返回第一行作为一个

foreach(f)

应用f函数对所有DataFrame

foreachPartition(f)

应用f函数的每个分区DataFrame

freqItems(关口[支持])

发现频繁项目列,可能与假阳性。

groupBy(*峡路)

组的DataFrame使用指定的列,所以我们可以运行聚合。

groupby(*峡路)

groupby ()是一个别名groupBy ()

([n])

返回第一个n行。

提示(名称、*参数)

指定当前的一些提示DataFrame

inputFiles()

返回一个最优的快照文件组成DataFrame

相交(其他)

返回一个新的DataFrame只有在这种包含行DataFrame和另一个DataFrame

intersectAll(其他)

返回一个新的DataFrame包含在这行DataFrame和另一个DataFrame同时保留副本。

isEmpty()

返回真正的如果这DataFrame是空的。

isLocal()

返回真正的如果收集()带()方法可以在本地运行(没有任何火花执行人)。

加入(其他(,,))

连接与另一个DataFrame,使用给定的连接表达式。

限制(num)

限制结果数到指定的号码。

localCheckpoint((渴望))

返回一个局部检查点的版本DataFrame

mapInArrow(函数模式)

地图批次在当前的迭代器DataFrame使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果DataFrame

mapInPandas(函数模式)

地图批次在当前的迭代器DataFrame使用Python的本机函数和输出一个熊猫DataFrame,并返回结果DataFrame

观察(观察、* exprs)

定义(命名)DataFrame指标观察。

orderBy(*关口,* * kwargs)

返回一个新的DataFrame按指定的列(s)。

pandas_api([index_col])

现有DataFrame转换成pandas-on-Spark DataFrame。

坚持([storageLevel])

设置存储水平持续的内容DataFrame在操作后第一次计算。

printSchema()

在树格式打印模式。

randomSplit(重量、种子)

随机将这DataFrame与所提供的重量。

registerTempTable(名字)

注册了这家DataFrame作为一个临时表使用给定的名称。

重新分区(*关口numPartitions)

返回一个新的DataFrame分区的分区表达式。

repartitionByRange(*关口numPartitions)

返回一个新的DataFrame分区的分区表达式。

取代(to_replace[],价值,子集)

返回一个新的DataFrame值替换为另一个值。

汇总(*峡路)

为当前创建一个多维的汇总DataFrame使用指定的列,所以我们可以运行聚合。

sameSemantics(其他)

返回真正的当内部逻辑查询计划DataFrame年代是相等的,因此返回相同的结果。

样本([withReplacement,分数,种子])

返回一个样本子集DataFrame

sampleBy(坳,分数(、种子))

返回一个分层抽样不重复每层基于给出的分数。

选择(*峡路)

项目一组表达式并返回一个新的DataFrame

selectExpr(* expr)

项目一组SQL表达式,并返回一个新的DataFrame

semanticHash()

返回一个散列码逻辑查询计划的反对DataFrame

显示([n,截断,垂直])

印第n行到控制台。

排序(*关口,* * kwargs)

返回一个新的DataFrame按指定的列(s)。

sortWithinPartitions(*关口,* * kwargs)

返回一个新的DataFrame与每个分区按指定的列(s)。

减去(其他)

返回一个新的DataFrame包含在这行DataFrame但不是在另一个DataFrame

总结(*统计)

计算指定的统计数字和字符串列。

尾巴(num)

返回最后一个全国矿工工会行作为一个列表

(num)

返回第一个全国矿工工会行作为一个列表

toDF(*峡路)

返回一个新的DataFrame与新指定的列名

toJSON([use_unicode])

转换DataFrame成一个抽样的字符串。

toLocalIterator([prefetchPartitions])

返回一个迭代器,包含所有的行DataFrame

toPandas()

返回的内容DataFrame像熊猫pandas.DataFrame

to_koalas([index_col])

to_pandas_on_spark([index_col])

变换(* args func * * kwargs)

返回一个新的DataFrame

联盟(其他)

返回一个新的DataFrame在这个和另一个包含的行DataFrame

unionAll(其他)

返回一个新的DataFrame在这个和另一个包含的行DataFrame

unionByName(其他[allowMissingColumns])

返回一个新的DataFrame在这个和另一个包含的行DataFrame

unpersist((阻塞))

标志着DataFrame非持久性,并删除所有从内存和磁盘块。

在哪里(条件)

在()是一个别名filter ()

withColumn(colName坳)

返回一个新的DataFrame通过添加一个列或替换现有的列有相同的名字。

withColumnRenamed(现有的)

返回一个新的DataFrame通过重命名一个已有的列。

withColumns(* colsMap)

返回一个新的DataFrame通过添加多个列或替换现有的列有相同的名字。

withMetadata(columnName元数据)

返回一个新的DataFrame通过更新现有列元数据。

withWatermark(eventTime delayThreshold)

定义了一个事件时间水印DataFrame

用writeTo(表)

创建一个为v2消息编写配置构建器。

属性

返回所有列名列表。

dtypes

返回所有列名和数据类型作为一个列表。

isStreaming

返回真正的如果这DataFrame包含一个或多个源不断地返回数据,因为它的到来。

na

返回一个DataFrameNaFunctions处理缺失值。

抽样

作为一个返回内容pyspark.RDD

模式

返回的模式DataFrame作为一个pyspark.sql.types.StructType

sparkSession

返回会话创建这个火花DataFrame

sql_ctx

统计

返回一个DataFrameStatFunctions统计功能。

storageLevel

得到了DataFrame目前的存储水平。

界面保存的内容的非DataFrame到外部存储。

writeStream

界面保存的内容流DataFrame到外部存储。