pyspark.pandas.DataFrame.kde

DataFrame。 kde ( bw_method=没有一个,印第安纳州=没有一个,* *kwds )

使用高斯内核生成核密度估计的阴谋。

参数
bw_method 标量

方法用于计算估计带宽。有关更多信息,请参见在PySpark KernelDensity。

印第安纳州 NumPy数组或整数,可选的

评估点估计的PDF。如果没有(默认),使用1000等距的点。如果印第安纳州NumPy数组,KDE是评估点通过。如果印第安纳州是一个整数,印第安纳州使用数量的等距的点。

* * kwargs 可选

关键字参数传递pandas-on-Spark.Series.plot ()

返回
plotly.graph_objs.Figure

当返回一个自定义对象后端! =情节。返回一个ndarray当次要情节= True(matplotlib-only)。

例子

一个标量带宽应该指定。使用一个小的带宽值会导致过度学习,在使用大的带宽值可能导致under-fitting:

> > >年代=ps系列([1,2,2.5,3,3.5,4,5])> > >年代情节kde(bw_method=0.3)
> > >年代=ps系列([1,2,2.5,3,3.5,4,5])> > >年代情节kde(bw_method=3)

印第安纳州参数确定的评估点估计KDF的情节:

> > >年代=ps系列([1,2,2.5,3,3.5,4,5])> > >年代情节kde(印第安纳州=(1,2,3,4,5),bw_method=0.3)

对于DataFrame,它和系列:以同样的方式工作

> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情节kde(bw_method=0.3)
> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情节kde(bw_method=3)
> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情节kde(印第安纳州=(1,2,3,4,5,6),bw_method=0.3)