PrefixSpan

pyspark.mllib.fpm。 PrefixSpan

一个平行PrefixSpan算法挖掘频繁序列模式。PrefixSpan算法描述的剑裴et al (2001)[1]

1

剑裴et al .,“PrefixSpan:挖掘序列模式由前缀映射模式有效地增长,“诉讼17数据工程国际会议上,德国海德堡2001年,页215 - 224,doi:https://doi.org/10.1109/ICDE.2001.914830

方法

火车(数据、minSupport maxPatternLength…))

发现频繁序列模式的完整的输入序列项集。

方法的文档

classmethod 火车 ( 数据:pyspark.rdd.RDD(列表(列表(T]]],minSupport:浮动=0.1,maxPatternLength:int=10,maxLocalProjDBSize:int=32000000 )pyspark.mllib.fpm.PrefixSpanModel (T]

发现频繁序列模式的完整的输入序列项集。

参数
数据 pyspark.RDD

输入数据集,每个元素包含一个项集序列。

minSupport 浮动,可选

最小的序列模式的支撑位,任何模式出现(minSupport * size-of-the-dataset)多次将输出。(默认值:0.1)

maxPatternLength int,可选

的最大长度序列模式,任何模式出现不到maxPatternLength将输出。(默认值:10)

maxLocalProjDBSize int,可选

条目的最大数量(包括分隔符用于内部存储格式)允许在投影数据库在本地处理。如果一个投影数据库超过这个尺寸,另一个迭代运行分布式前缀的增长。(默认:32000000)