pyspark.sql.DataFrame.mapInArrow???

数据Frame 地图插件 高山市 趣味:ArrowMapIterFunction, 模式化:联盟[pyspark.sql.types.StructType,字符串万事通 )数据Frame ???

映射当前批量复制器数据Frameython原生函数取并输出PyArrow记录批量返回结果数据Frame.

函数应取迭代器pyarrow.RecordBatchs并返回另一个迭代器pyarrow.RecordBatchs.所有列相交并发pyarrow.RecordBatchs转函数和返回迭代器pyarrow.RecordBatchs合并为数据Frame.中选pyarrow.RecordBatch大小可控制spark.sql.execution.arrow.maxRecordsPerBatch.

参数解析

趣味函数显示: Python原生函数取迭代器pyarrow.RecordBatchs输出迭代器pyarrow.RecordBatchs.
模式化 pyspark.sql.types.DataType或字符串: 返回类型趣味PySpark值可以是pyspark.sql.types.DataType对象或ddl格式型字符串

并见

pyspark.sql.functions.pandas_udf
pyspark.sql.DataFrame.mapInPandas

注解

API不稳定开发

实例

           >>>导入线程>>>df=点火.创建DataFrame〔()一号,21号)高山市2,30码)],高山市识别码,高龄)>>>def过滤器func高山市迭代器:.For批量处理内迭代器:.pdf大全=批量处理.to_pandas(b).输出量线程.记录批量.从_pandas高山市pdf大全[pdf大全.标识符汉城一号)>>>df.地图插件高山市过滤器func,df.模式化).显示显示(b)++iQQQQQQQQ++#############21####++
          

前一

pyspark.sql.DataFrame.mapInPandas

下一个

pyspark.sql.DataFrame.na