pyspark.sql.DataFrame.approxQuantile???

数据Frame 近似量度 高山市 高山:联盟[字符串,链表[字符串万事通,图例[字符串万事通万事通, 概率:联盟[链表[浮点万事通,图例[浮点万事通万事通, 相对错误:浮点 )[链表 [浮点 万事通 ,链表 [链表 [浮点 万事通 万事通 万事通 ???

计算数值列约量化数据Frame.

算法结果有下列确定性约束值:数据Frame带N元素并请求概率量化公元前顶级报错误差后算法返回样本X级数据Frame并实现精度X级接近p*N更精确地说

楼层(p-错误)*N)

方法执行Greenwald-Khanna算法变换算法首创https://doi.org/10.1145/375663.375670空间高效在线计算量子摘要bject-Greenwald和Khanna

注意无效值在计算前在数值列中忽略列中只含无效值,空表返回

参数解析
Col:str、tuple或List

可单列名或多列名列表

添加多列支持

概率 链表或图

数概率列表例0最小值,0.5中值,1最大值

相对错误 浮点

相对目标精度实现如果设为零,则精确量化计算,这可能非常昂贵。注意值大于1被接受但结果与1相同

回归
链表

近似量化给定概率if输入高山是一个字符串,输出列表浮点if输入高山列表或图字串,输出也列表,但其中的每一个元素都是浮点数列表,即输出列表浮点数