pyspark.sql.DataFrame.mapInPandas¶

DataFrame。 mapInPandas ( 函数:PandasMapIterFunction,模式:联盟(pyspark.sql.types.StructType,str] )→DataFrame¶

地图批次在当前的迭代器DataFrame使用Python的本机函数和输出一个熊猫DataFrame,并返回结果DataFrame。

的函数应该采取一个迭代器pandas.DataFrame年代和返回的另一个迭代器pandas.DataFrame年代。所有列在一起作为一个迭代器的传递pandas.DataFrame的函数和返回的迭代器pandas.DataFrames是作为相结合DataFrame。每一个pandas.DataFrame大小可以控制的spark.sql.execution.arrow.maxRecordsPerBatch。

参数

函数函数: 一个Python本机函数需要一个迭代器pandas.DataFrame年代,和输出迭代器pandas.DataFrame年代。
模式 pyspark.sql.types.DataType或str: 的返回类型函数在PySpark。值可以是pyspark.sql.types.DataType对象或DDL-formatted类型字符串。

另请参阅

pyspark.sql.functions.pandas_udf

笔记

这个API是实验

例子

           > > >从pyspark.sql.functions进口pandas_udf> > >df=火花。createDataFrame(((1,21),(2,30.)),(“id”,“年龄”))> > >deffilter_func(迭代器):…为pdf在迭代器:…收益率pdf(pdf。id= =1]> > >df。mapInPandas(filter_func,df。模式)。显示()+ - - - + - - - +年龄| | | id+ - - - + - - - +| 1 | | 21日+ - - - + - - - +
          

以前的

pyspark.sql.DataFrame.localCheckpoint

下一个

pyspark.sql.DataFrame.mapInArrow