pyspark.sql.DataFrame.mapInArrow???
-
数据Frame
地图插件
高山市 趣味:ArrowMapIterFunction, 模式化:联盟[pyspark.sql.types.StructType,字符串万事通 )数据Frame ??? -
映射当前批量复制器
数据Frame
ython原生函数取并输出PyArrow记录批量返回结果数据Frame
.函数应取迭代器pyarrow.RecordBatchs并返回另一个迭代器pyarrow.RecordBatchs.所有列相交并发pyarrow.RecordBatchs转函数和返回迭代器pyarrow.RecordBatchs合并为
数据Frame
.中选pyarrow.RecordBatch大小可控制spark.sql.execution.arrow.maxRecordsPerBatch.- 参数解析
-
- 趣味 函数显示
-
Python原生函数取迭代器pyarrow.RecordBatchs输出迭代器pyarrow.RecordBatchs.
-
模式化
pyspark.sql.types.DataType
或字符串 -
返回类型趣味PySpark值可以是
pyspark.sql.types.DataType
对象或ddl格式型字符串
注解
API不稳定开发
实例
>>>导入线程>>>df=点火.创建DataFrame〔()一号,21号)高山市2,30码)],高山市识别码,高龄)>>>def过滤器func高山市迭代器:.For批量处理内迭代器:.pdf大全=批量处理.to_pandas(b).输出量线程.记录批量.从_pandas高山市pdf大全[pdf大全.标识符汉城一号)>>>df.地图插件高山市过滤器func,df.模式化).显示显示(b)++iQQQQQQQQ++#############21####++