pyspark.sql.DataFrame¶
-
类
pyspark.sql。
DataFrame
( jdf:py4j.java_gateway.JavaObject,sql_ctx:联盟(SQLContext,SparkSession] ) ¶ -
一个分布式数据分为命名列的集合。
一个
DataFrame
相当于在火花SQL关系表,可以创建和使用各种功能SparkSession
:人=火花。读。拼花(“…”)
一旦创建了,它可以使用各种操纵领域特定语言(DSL)中定义的函数:
DataFrame
,列
。选择的列
DataFrame
使用应用方法:ageCol=人。年龄
一个更具体的例子:
#创建使用SparkSession DataFrame人=火花。读。拼花(“…”)部门=火花。读。拼花(“…”)人。过滤器(人。年龄>30.)。加入(部门,人。deptId= =部门。id)\。groupBy(部门。的名字,“性别”)。gg({“工资”:“平均”,“年龄”:“马克斯”})
方法
gg
(* exprs)总对整个
DataFrame
没有组(简称.agg df.groupBy () ()
)。别名
(别名)返回一个新的
DataFrame
设置一个别名。approxQuantile
(relativeError坳,概率)计算的近似数值列的分位数
DataFrame
。缓存
()持续的
DataFrame
使用默认存储水平(MEMORY_AND_DISK)。检查点
((渴望))返回一个检查点的版本
DataFrame
。合并
(numPartitions)返回一个新的
DataFrame
已经完全numPartitions分区。colRegex
(colName)基于列的选择列名称指定为一个正则表达式并返回它
列
。收集
()返回所有记录的列表
行
。相关系数
(col1 col2[方法])计算两列的相关性
DataFrame
作为一个双精度值。数
()返回的行数
DataFrame
。浸
(col1 col2)计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。
创建一个全局临时视图
DataFrame
。创建或替换一个全局临时视图使用给定的名称。
创建或替换本地临时视图
DataFrame
。createTempView
(名字)创建一个本地临时视图
DataFrame
。crossJoin
(其他)返回笛卡儿积与另一个
DataFrame
。交叉表
(col1 col2)计算两两频率给定的表列。
多维数据集
(*峡路)为当前创建多维数据集
DataFrame
使用指定的列,所以我们可以运行聚合。描述
(*峡路)计算基本统计数字和字符串列。
截然不同的
()下降
(*峡路)返回一个新的
DataFrame
这滴指定的列。dropDuplicates
((子集))返回一个新的
DataFrame
删除重复的行,选择只考虑某些列。drop_duplicates
((子集))dropna
([如何颠簸,子集])返回一个新的
DataFrame
省略具有零值的行。exceptAll
(其他)解释
([扩展、模式])打印到控制台(逻辑和物理)计划用于调试目的。
fillna
(价值[,]子集)替换空值,别名
na.fill ()
。过滤器
(条件)过滤器使用给定的条件行。
第一个
()返回第一行作为一个
行
。foreach
(f)应用
f
函数的每个分区DataFrame
。freqItems
(关口[支持])发现频繁项目列,可能与假阳性。
groupBy
(*峡路)组的
DataFrame
使用指定的列,所以我们可以运行聚合。groupby
(*峡路)groupby ()
是一个别名groupBy ()
。头
([n])返回第一个
n
行。提示
(名称、*参数)指定当前的一些提示
DataFrame
。返回一个最优的快照文件组成
DataFrame
。相交
(其他)intersectAll
(其他)isEmpty
()返回
真正的
如果这DataFrame
是空的。isLocal
()加入
(其他(,,))连接与另一个
DataFrame
,使用给定的连接表达式。限制
(num)限制结果数到指定的号码。
localCheckpoint
((渴望))返回一个局部检查点的版本
DataFrame
。mapInArrow
(函数模式)地图批次在当前的迭代器
DataFrame
使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果DataFrame
。mapInPandas
(函数模式)地图批次在当前的迭代器
DataFrame
使用Python的本机函数和输出一个熊猫DataFrame,并返回结果DataFrame
。观察
(观察、* exprs)定义(命名)DataFrame指标观察。
orderBy
(*关口,* * kwargs)返回一个新的
DataFrame
按指定的列(s)。pandas_api
([index_col])现有DataFrame转换成pandas-on-Spark DataFrame。
坚持
([storageLevel])设置存储水平持续的内容
DataFrame
在操作后第一次计算。在树格式打印模式。
randomSplit
(重量、种子)随机将这
DataFrame
与所提供的重量。注册了这家
DataFrame
作为一个临时表使用给定的名称。重新分区
(*关口numPartitions)返回一个新的
DataFrame
分区的分区表达式。repartitionByRange
(*关口numPartitions)返回一个新的
DataFrame
分区的分区表达式。取代
(to_replace[],价值,子集)返回一个新的
DataFrame
值替换为另一个值。汇总
(*峡路)为当前创建一个多维的汇总
DataFrame
使用指定的列,所以我们可以运行聚合。sameSemantics
(其他)返回真正的当内部逻辑查询计划
DataFrame
年代是相等的,因此返回相同的结果。样本
([withReplacement,分数,种子])返回一个样本子集
DataFrame
。sampleBy
(坳,分数(、种子))返回一个分层抽样不重复每层基于给出的分数。
选择
(*峡路)项目一组表达式并返回一个新的
DataFrame
。selectExpr
(* expr)项目一组SQL表达式,并返回一个新的
DataFrame
。返回一个散列码逻辑查询计划的反对
DataFrame
。显示
([n,截断,垂直])印第
n
行到控制台。排序
(*关口,* * kwargs)返回一个新的
DataFrame
按指定的列(s)。sortWithinPartitions
(*关口,* * kwargs)返回一个新的
DataFrame
与每个分区按指定的列(s)。减去
(其他)总结
(*统计)计算指定的统计数字和字符串列。
尾巴
(num)返回最后一个
全国矿工工会
行作为一个列表
的行
。取
(num)返回第一个
全国矿工工会
行作为一个列表
的行
。toDF
(*峡路)返回一个新的
DataFrame
与新指定的列名toJSON
([use_unicode])转换
DataFrame
成一个抽样
的字符串。toLocalIterator
([prefetchPartitions])返回一个迭代器,包含所有的行
DataFrame
。toPandas
()返回的内容
DataFrame
像熊猫pandas.DataFrame
。to_koalas
([index_col])to_pandas_on_spark
([index_col])变换
(* args func * * kwargs)返回一个新的
DataFrame
。联盟
(其他)unionAll
(其他)unionByName
(其他[allowMissingColumns])unpersist
((阻塞))标志着
DataFrame
非持久性,并删除所有从内存和磁盘块。在哪里
(条件)withColumn
(colName坳)返回一个新的
DataFrame
通过添加一个列或替换现有的列有相同的名字。withColumnRenamed
(现有的)返回一个新的
DataFrame
通过重命名一个已有的列。withColumns
(* colsMap)返回一个新的
DataFrame
通过添加多个列或替换现有的列有相同的名字。withMetadata
(columnName元数据)返回一个新的
DataFrame
通过更新现有列元数据。withWatermark
(eventTime delayThreshold)定义了一个事件时间水印
DataFrame
。用writeTo
(表)创建一个为v2消息编写配置构建器。
属性
返回所有列名列表。
返回所有列名和数据类型作为一个列表。
返回
真正的
如果这DataFrame
包含一个或多个源不断地返回数据,因为它的到来。返回一个
DataFrameNaFunctions
处理缺失值。作为一个返回内容
pyspark.RDD
的行
。返回的模式
DataFrame
作为一个pyspark.sql.types.StructType
。返回会话创建这个火花
DataFrame
。sql_ctx
返回一个
DataFrameStatFunctions
统计功能。得到了
DataFrame
目前的存储水平。界面保存的内容的非
DataFrame
到外部存储。界面保存的内容流
DataFrame
到外部存储。