向量

pyspark.ml.linalg。 向量

工厂方法来处理向量。

笔记

密集的向量是简单地表示为NumPy数组对象,所以不需要秘密MLlib使用。对于稀疏向量,在这个类创建一个工厂方法MLlib-compatible类型,或者用户可以通过SciPyscipy.sparse列向量。

方法

密集的(*元素)

创建一个密集的64位浮点数向量Python列表或数字。

规范(向量,p)

找到规范给定的向量。

稀疏的(大小、* args)

创建一个稀疏的向量,使用字典,(指数、价值)对的列表,或两个独立的指标和数组值(按指数排序)。

squared_distance(v1、v2)

方两个向量之间的距离。

0(大小)

方法的文档

静态 密集的 ( *元素:联盟(浮动,字节,numpy.ndarray,Iterable(浮动]] )pyspark.ml.linalg.DenseVector

创建一个密集的64位浮点数向量Python列表或数字。

例子

> > >向量密集的([1,2,3])DenseVector ((1.0, 2.0, 3.0))> > >向量密集的(1.0,2.0)DenseVector ([1.0, 2.0])
静态 规范 ( 向量:pyspark.ml.linalg.Vector,p:NormType )→numpy.float64

找到规范给定的向量。

静态 稀疏的 ( 大小:int,*arg游戏:联盟(字节,元组(int,浮动],Iterable(浮动],Iterable(元组(int,浮动]],Dict(int,浮动]] )pyspark.ml.linalg.SparseVector

创建一个稀疏的向量,使用字典,(指数、价值)对的列表,或两个独立的指标和数组值(按指数排序)。

参数
大小 int

向量的大小。

arg游戏

非零元素,作为一个字典,元组的列表,或两个排序的列表包含指数和价值观。

例子

> > >向量稀疏的(4,{1:1.0,3:5.5})SparseVector (4, {1: 1.0, 3: 5.5})> > >向量稀疏的(4,((1,1.0),(3,5.5)))SparseVector (4, {1: 1.0, 3: 5.5})> > >向量稀疏的(4,(1,3),(1.0,5.5])SparseVector (4, {1: 1.0, 3: 5.5})
静态 squared_distance ( v1:pyspark.ml.linalg.Vector,v2:pyspark.ml.linalg.Vector )→numpy.float64

方两个向量之间的距离。a和b可以SparseVector类型,DenseVector, np。ndarray或array.array。

例子

> > >一个=向量稀疏的(4,((0,1),(3,4)))> > >b=向量密集的([2,5,4,1])> > >一个squared_distance(b)51.0
静态 0 ( 大小:int )pyspark.ml.linalg.DenseVector