PrefixSpan¶

类 pyspark.mllib.fpm。 PrefixSpan ¶

一个平行PrefixSpan算法挖掘频繁序列模式。PrefixSpan算法描述的剑裴et al (2001)[1]

1: 剑裴et al .,“PrefixSpan:挖掘序列模式由前缀映射模式有效地增长,“诉讼17数据工程国际会议上,德国海德堡2001年,页215 - 224,doi:https://doi.org/10.1109/ICDE.2001.914830

方法

火车(数据、minSupport maxPatternLength…))

发现频繁序列模式的完整的输入序列项集。

方法的文档

classmethod 火车 ( 数据:pyspark.rdd.RDD(列表(列表(T]]],minSupport:浮动=0.1,maxPatternLength:int=10,maxLocalProjDBSize:int=32000000 )→pyspark.mllib.fpm.PrefixSpanModel (T] ¶

发现频繁序列模式的完整的输入序列项集。

参数

数据 pyspark.RDD: 输入数据集,每个元素包含一个项集序列。
minSupport 浮动,可选: 最小的序列模式的支撑位,任何模式出现(minSupport * size-of-the-dataset)多次将输出。(默认值:0.1)
maxPatternLength int,可选: 的最大长度序列模式,任何模式出现不到maxPatternLength将输出。(默认值:10)
maxLocalProjDBSize int,可选: 条目的最大数量(包括分隔符用于内部存储格式)允许在投影数据库在本地处理。如果一个投影数据库超过这个尺寸,另一个迭代运行分布式前缀的增长。(默认:32000000)

以前的

FPGrowthModel

下一个

PrefixSpanModel