pyspark.sql.DataFrame¶

类 pyspark.sql。 DataFrame ( jdf:py4j.java_gateway.JavaObject,sql_ctx:联盟(SQLContext,SparkSession] ) ¶

一个分布式数据分为命名列的集合。

一个DataFrame相当于在火花SQL关系表,可以创建和使用各种功能SparkSession:

           人=火花。读。拼花(“…”)
          

一旦创建了,它可以使用各种操纵领域特定语言(DSL)中定义的函数:DataFrame,列。

选择的列DataFrame使用应用方法:

           ageCol=人。年龄
          

一个更具体的例子:

           #创建使用SparkSession DataFrame人=火花。读。拼花(“…”)部门=火花。读。拼花(“…”)人。过滤器(人。年龄>30.)。加入(部门,人。deptId= =部门。id)\。groupBy(部门。的名字,“性别”)。gg({“工资”:“平均”,“年龄”:“马克斯”})
          

方法

`gg`(* exprs)	总对整个`DataFrame`没有组(简称`.agg df.groupBy () ()`)。
`别名`(别名)	返回一个新的`DataFrame`设置一个别名。
`approxQuantile`(relativeError坳,概率)	计算的近似数值列的分位数`DataFrame`。
`缓存`()	持续的`DataFrame`使用默认存储水平(MEMORY_AND_DISK)。
`检查点`((渴望))	返回一个检查点的版本`DataFrame`。
`合并`(numPartitions)	返回一个新的`DataFrame`已经完全numPartitions分区。
`colRegex`(colName)	基于列的选择列名称指定为一个正则表达式并返回它`列`。
`收集`()	返回所有记录的列表`行`。
`相关系数`(col1 col2[方法])	计算两列的相关性`DataFrame`作为一个双精度值。
`数`()	返回的行数`DataFrame`。
`浸`(col1 col2)	计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。
`createGlobalTempView`(名字)	创建一个全局临时视图`DataFrame`。
`createOrReplaceGlobalTempView`(名字)	创建或替换一个全局临时视图使用给定的名称。
`createOrReplaceTempView`(名字)	创建或替换本地临时视图`DataFrame`。
`createTempView`(名字)	创建一个本地临时视图`DataFrame`。
`crossJoin`(其他)	返回笛卡儿积与另一个`DataFrame`。
`交叉表`(col1 col2)	计算两两频率给定的表列。
`多维数据集`(*峡路)	为当前创建多维数据集`DataFrame`使用指定的列,所以我们可以运行聚合。
`描述`(*峡路)	计算基本统计数字和字符串列。
`截然不同的`()	返回一个新的`DataFrame`包含不同的行`DataFrame`。
`下降`(*峡路)	返回一个新的`DataFrame`这滴指定的列。
`dropDuplicates`((子集))	返回一个新的`DataFrame`删除重复的行,选择只考虑某些列。
`drop_duplicates`((子集))	`drop_duplicates ()`是一个别名`dropDuplicates ()`。
`dropna`([如何颠簸,子集])	返回一个新的`DataFrame`省略具有零值的行。
`exceptAll`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`但不是在另一个`DataFrame`同时保留副本。
`解释`([扩展、模式])	打印到控制台(逻辑和物理)计划用于调试目的。
`fillna`(价值[,]子集)	替换空值,别名`na.fill ()`。
`过滤器`(条件)	过滤器使用给定的条件行。
`第一个`()	返回第一行作为一个`行`。
`foreach`(f)	应用`f`函数对所有`行`这`DataFrame`。
`foreachPartition`(f)	应用`f`函数的每个分区`DataFrame`。
`freqItems`(关口[支持])	发现频繁项目列,可能与假阳性。
`groupBy`(*峡路)	组的`DataFrame`使用指定的列,所以我们可以运行聚合。
`groupby`(*峡路)	`groupby ()`是一个别名`groupBy ()`。
`头`([n])	返回第一个`n`行。
`提示`(名称、*参数)	指定当前的一些提示`DataFrame`。
`inputFiles`()	返回一个最优的快照文件组成`DataFrame`。
`相交`(其他)	返回一个新的`DataFrame`只有在这种包含行`DataFrame`和另一个`DataFrame`。
`intersectAll`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`和另一个`DataFrame`同时保留副本。
`isEmpty`()	返回`真正的`如果这`DataFrame`是空的。
`isLocal`()	返回`真正的`如果`收集()`和`带()`方法可以在本地运行(没有任何火花执行人)。
`加入`(其他(,,))	连接与另一个`DataFrame`,使用给定的连接表达式。
`限制`(num)	限制结果数到指定的号码。
`localCheckpoint`((渴望))	返回一个局部检查点的版本`DataFrame`。
`mapInArrow`(函数模式)	地图批次在当前的迭代器`DataFrame`使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果`DataFrame`。
`mapInPandas`(函数模式)	地图批次在当前的迭代器`DataFrame`使用Python的本机函数和输出一个熊猫DataFrame,并返回结果`DataFrame`。
`观察`(观察、* exprs)	定义(命名)DataFrame指标观察。
`orderBy`(关口, * kwargs)	返回一个新的`DataFrame`按指定的列(s)。
`pandas_api`([index_col])	现有DataFrame转换成pandas-on-Spark DataFrame。
`坚持`([storageLevel])	设置存储水平持续的内容`DataFrame`在操作后第一次计算。
`printSchema`()	在树格式打印模式。
`randomSplit`(重量、种子)	随机将这`DataFrame`与所提供的重量。
`registerTempTable`(名字)	注册了这家`DataFrame`作为一个临时表使用给定的名称。
`重新分区`(*关口numPartitions)	返回一个新的`DataFrame`分区的分区表达式。
`repartitionByRange`(*关口numPartitions)	返回一个新的`DataFrame`分区的分区表达式。
`取代`(to_replace[],价值,子集)	返回一个新的`DataFrame`值替换为另一个值。
`汇总`(*峡路)	为当前创建一个多维的汇总`DataFrame`使用指定的列,所以我们可以运行聚合。
`sameSemantics`(其他)	返回真正的当内部逻辑查询计划`DataFrame`年代是相等的,因此返回相同的结果。
`样本`([withReplacement,分数,种子])	返回一个样本子集`DataFrame`。
`sampleBy`(坳,分数(、种子))	返回一个分层抽样不重复每层基于给出的分数。
`选择`(*峡路)	项目一组表达式并返回一个新的`DataFrame`。
`selectExpr`(* expr)	项目一组SQL表达式,并返回一个新的`DataFrame`。
`semanticHash`()	返回一个散列码逻辑查询计划的反对`DataFrame`。
`显示`([n,截断,垂直])	印第`n`行到控制台。
`排序`(关口, * kwargs)	返回一个新的`DataFrame`按指定的列(s)。
`sortWithinPartitions`(关口, * kwargs)	返回一个新的`DataFrame`与每个分区按指定的列(s)。
`减去`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`但不是在另一个`DataFrame`。
`总结`(*统计)	计算指定的统计数字和字符串列。
`尾巴`(num)	返回最后一个`全国矿工工会`行作为一个`列表`的`行`。
`取`(num)	返回第一个`全国矿工工会`行作为一个`列表`的`行`。
`toDF`(*峡路)	返回一个新的`DataFrame`与新指定的列名
`toJSON`([use_unicode])	转换`DataFrame`成一个`抽样`的字符串。
`toLocalIterator`([prefetchPartitions])	返回一个迭代器,包含所有的行`DataFrame`。
`toPandas`()	返回的内容`DataFrame`像熊猫`pandas.DataFrame`。
`to_koalas`([index_col])
`to_pandas_on_spark`([index_col])
`变换`(* args func * * kwargs)	返回一个新的`DataFrame`。
`联盟`(其他)	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`unionAll`(其他)	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`unionByName`(其他[allowMissingColumns])	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`unpersist`((阻塞))	标志着`DataFrame`非持久性,并删除所有从内存和磁盘块。
`在哪里`(条件)	`在()`是一个别名`filter ()`。
`withColumn`(colName坳)	返回一个新的`DataFrame`通过添加一个列或替换现有的列有相同的名字。
`withColumnRenamed`(现有的)	返回一个新的`DataFrame`通过重命名一个已有的列。
`withColumns`(* colsMap)	返回一个新的`DataFrame`通过添加多个列或替换现有的列有相同的名字。
`withMetadata`(columnName元数据)	返回一个新的`DataFrame`通过更新现有列元数据。
`withWatermark`(eventTime delayThreshold)	定义了一个事件时间水印`DataFrame`。
`用writeTo`(表)	创建一个为v2消息编写配置构建器。

属性

`列`	返回所有列名列表。
`dtypes`	返回所有列名和数据类型作为一个列表。
`isStreaming`	返回`真正的`如果这`DataFrame`包含一个或多个源不断地返回数据,因为它的到来。
`na`	返回一个`DataFrameNaFunctions`处理缺失值。
`抽样`	作为一个返回内容`pyspark.RDD`的`行`。
`模式`	返回的模式`DataFrame`作为一个`pyspark.sql.types.StructType`。
`sparkSession`	返回会话创建这个火花`DataFrame`。
`sql_ctx`
`统计`	返回一个`DataFrameStatFunctions`统计功能。
`storageLevel`	得到了`DataFrame`目前的存储水平。
`写`	界面保存的内容的非`DataFrame`到外部存储。
`writeStream`	界面保存的内容流`DataFrame`到外部存储。

以前的

pyspark.sql.Catalog

下一个

pyspark.sql.Column