pyspark.pandas.DataFrame.kde¶

DataFrame。 kde ( bw_method=没有一个,印第安纳州=没有一个,* *kwds ) ¶

使用高斯内核生成核密度估计的阴谋。

参数

bw_method 标量: 方法用于计算估计带宽。有关更多信息,请参见在PySpark KernelDensity。
印第安纳州 NumPy数组或整数,可选的: 评估点估计的PDF。如果没有(默认),使用1000等距的点。如果印第安纳州NumPy数组,KDE是评估点通过。如果印第安纳州是一个整数,印第安纳州使用数量的等距的点。
* * kwargs 可选: 关键字参数传递pandas-on-Spark.Series.plot ()。

返回

plotly.graph_objs.Figure: 当返回一个自定义对象后端! =情节。返回一个ndarray当次要情节= True(matplotlib-only)。

例子

一个标量带宽应该指定。使用一个小的带宽值会导致过度学习,在使用大的带宽值可能导致under-fitting:

           > > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(bw_method=0.3)
          

           > > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(bw_method=3)
          

的印第安纳州参数确定的评估点估计KDF的情节:

           > > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(印第安纳州=(1,2,3,4,5),bw_method=0.3)
          

对于DataFrame,它和系列:以同样的方式工作

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(bw_method=0.3)
          

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(bw_method=3)
          

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(印第安纳州=(1,2,3,4,5,6),bw_method=0.3)
          

以前的

pyspark.pandas.DataFrame.boxplot

下一个

pyspark.pandas.DataFrame.pandas_on_spark.apply_batch