pyspark.pandas.DataFrame.kde¶
-
DataFrame。
kde
( bw_method=没有一个,印第安纳州=没有一个,* *kwds ) ¶ -
使用高斯内核生成核密度估计的阴谋。
- 参数
-
- bw_method 标量
-
方法用于计算估计带宽。有关更多信息,请参见在PySpark KernelDensity。
- 印第安纳州 NumPy数组或整数,可选的
-
评估点估计的PDF。如果没有(默认),使用1000等距的点。如果印第安纳州NumPy数组,KDE是评估点通过。如果印第安纳州是一个整数,印第安纳州使用数量的等距的点。
- * * kwargs 可选
-
关键字参数传递
pandas-on-Spark.Series.plot ()
。
- 返回
-
-
plotly.graph_objs.Figure
-
当返回一个自定义对象
后端! =情节
。返回一个ndarray当次要情节= True
(matplotlib-only)。
-
例子
一个标量带宽应该指定。使用一个小的带宽值会导致过度学习,在使用大的带宽值可能导致under-fitting:
> > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(bw_method=0.3)
> > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(bw_method=3)
的印第安纳州参数确定的评估点估计KDF的情节:
> > >年代=ps。系列([1,2,2.5,3,3.5,4,5])> > >年代。情节。kde(印第安纳州=(1,2,3,4,5),bw_method=0.3)
对于DataFrame,它和系列:以同样的方式工作
> > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(bw_method=0.3)
> > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(bw_method=3)
> > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情节。kde(印第安纳州=(1,2,3,4,5,6),bw_method=0.3)