pyspark.pandas.Series.diff¶

系列。 diff ( 期:int=1 )→pyspark.pandas.series.Series¶

第一个离散元素的差异。

计算一系列元素的不同而DataFrame中的另一个元素的元素在同一列(默认是前一行)。

请注意

当前实现diff使用火花的窗口没有指定分区规范。这导致所有数据进入单一分区在单一机器,可能会导致严重的性能下降。避免这种方法对非常大的数据集。

参数

期 int,默认1: 时期转变为计算差异,接受负值。

返回

dif 系列

例子

           > > >df=ps。DataFrame({“一个”:(1,2,3,4,5,6),…“b”:(1,1,2,3,5,8),…“c”:(1,4,9,16,25,36)},列=(“一个”,“b”,“c”])> > >dfa b c0 1 1 11 2 1 42 3 2 93 4 3 164 5 5 255 6 8 36
          

           > > >df。b。diff()0南1 0.02 1.03 1.04 2.05 3.0名称:b, dtype: float64
          

与前一个值的差异

           > > >df。c。diff(期=3)0南1南2南3 15.04 21.05 27.0名称:c, dtype: float64
          

与下面的差异值

           > > >df。c。diff(期= -1)0 -3.01 -5.02 -7.03 -9.04 -11.05南名称:c, dtype: float64
          

以前的

pyspark.pandas.Series.round

下一个

pyspark.pandas.Series.is_monotonic