pyspark.sql.DataFrame.approxQuantile???
-
数据Frame
近似量度
高山市 高山:联盟[字符串,链表[字符串万事通,图例[字符串万事通万事通, 概率:联盟[链表[浮点万事通,图例[浮点万事通万事通, 相对错误:浮点 )联 [链表 [浮点 万事通 ,链表 [链表 [浮点 万事通 万事通 万事通 ??? -
计算数值列约量化
数据Frame
.算法结果有下列确定性约束值:
数据Frame
带N元素并请求概率量化公元前顶级报错误差后算法返回样本X级从数据Frame
并实现精度级X级接近p*N更精确地说楼层(p-错误)*N)
方法执行Greenwald-Khanna算法变换算法首创https://doi.org/10.1145/375663.375670空间高效在线计算量子摘要bject-Greenwald和Khanna
注意无效值在计算前在数值列中忽略列中只含无效值,空表返回
- 参数解析
-
- Col:str、tuple或List
-
可单列名或多列名列表
添加多列支持
- 概率 链表或图
-
数概率列表例0最小值,0.5中值,1最大值
- 相对错误 浮点
-
相对目标精度实现如果设为零,则精确量化计算,这可能非常昂贵。注意值大于1被接受但结果与1相同
- 回归
-
- 链表
-
近似量化给定概率if输入高山是一个字符串,输出列表浮点if输入高山列表或图字串,输出也列表,但其中的每一个元素都是浮点数列表,即输出列表浮点数