pyspark.pandas.DataFrame.dot¶
-
DataFrame。
点
( 其他:系列 )→系列¶ -
计算DataFrame和其他之间的矩阵乘法。
这种方法计算矩阵乘积DataFrame和一系列其他的值
它也可以被使用
自我@其他
在Python中> = 3.5。请注意
这种方法是基于一项昂贵的操作由于大数据的性质。内部需要为每个值生成每一行,然后组织两次——这是一个巨大的操作。为了防止误用,这种方法的计算。max_rows默认的输入长度限制,引发了ValueError。
> > >从pyspark.pandas.config进口option_context> > >与option_context(…“compute.max_rows”,1000年,“compute.ops_on_diff_frames”,真正的…):…psdf=ps。DataFrame({“一个”:范围(1001年)})…ps=ps。系列([2),指数=(“一个”])…psdf。点(ps)回溯(最近的电话):…ValueError:当前DataFrame超过给定的限制1000行。请设定计算。max_rows”通过“pyspark.pandas.config.set_option”检索检索超过1000行。注意,在改变之前“compute.max_rows”,this operation is considerably expensive.
- 参数
-
- 其他 系列
-
计算的矩阵乘积的其他对象。
- 返回
-
- 系列
-
回归自我和他人之间的矩阵乘积作为一个系列。
另请参阅
-
Series.dot
-
类似的方法系列。
笔记
DataFrame和其他必须一致的尺寸来计算矩阵乘法。此外,DataFrame列名和其他必须包含相同值的指数,因为他们将乘法前保持一致。
点的系列计算内积的方法,而不是这里的矩阵乘积。
例子
> > >从pyspark.pandas.config进口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)> > >psdf=ps。DataFrame([[0,1,- - - - - -2,- - - - - -1),(1,1,1,1]])> > >ps=ps。系列([1,1,2,1])> > >psdf。点(ps)0 41 - 5dtype: int64
注意转移的对象不会改变结果。
> > >psser2=ps。重建索引([1,0,2,3])> > >psdf。点(psser2)0 41 - 5dtype: int64> > >psdf@psser20 41 - 5dtype: int64> > >reset_option(“compute.ops_on_diff_frames”)