pyspark.SparkContext

pyspark。 SparkContext ( 主:可选(str) =没有,浏览器名称:可选(str) =没有,sparkHome:可选(str) =没有,pyFiles:可选列表(str) = None,环境:可选(Dict (str,任何]]=没有,batchSize: int = 0,序列化器:pyspark.serializers。序列化器= CloudPickleSerializer (),设计:可选(pyspark.conf。SparkConf] =没有,(py4j.java_gateway网关:可选。JavaGateway] =没有,(py4j.java_gateway jsc:可选。JavaObject] =没有,profiler_cls: [pyspark.profiler类型。BasicProfiler] = <类“pyspark.profiler.BasicProfiler”>,udf_profiler_cls: [pyspark.profiler类型。UDFBasicProfiler] = <类“pyspark.profiler.UDFBasicProfiler”> )

主要入口点火花的功能。SparkContext代表连接火花集群,并可用于创建抽样和广播变量集群。

当你创建一个新的SparkContext,至少掌握和应用程序名称应该设置,通过这里的命名参数或通过相依

参数
str,可选

集群要连接的URL(例如,便:/ /主持人:港口,火花:/ /主持人:港口,当地[4])。

浏览器名称 str,可选

一个名字为你工作,集群web UI上显示。

sparkHome str,可选

火花集群节点上安装的位置。

pyFiles 列表中,选

收藏的. zip或. py文件发送到集群和添加到PYTHONPATH环境。这些可以在本地文件系统路径或HDFS, HTTP、HTTPS、FTP url。

环境 东西,可选

字典的工作节点上设置环境变量。

batchSize int,可选

Python对象的数量表示为一个Java对象。设置1禁用批处理,0自动选择基于对象大小批量大小,或1使用无限批量大小

序列化器 pyspark.serializers.Serializer、可选

抽样的序列化器。

相依 pyspark.SparkConf、可选

一个对象设置引发属性。

网关 py4j.java_gateway.JavaGateway、可选

使用现有的网关和JVM,否则一个新的JVM将被实例化。这只是内部使用。

约翰逊航天中心 py4j.java_gateway.JavaObject、可选

JavaSparkContext实例。这只是内部使用。

profiler_cls 类型,可选

一个类的自定义配置(默认是分析器使用pyspark.profiler.BasicProfiler)。

udf_profiler_cls 类型,可选

类的自定义分析器udf分析(默认是使用pyspark.profiler.UDFBasicProfiler)。

笔记

只有一个SparkContext应该每个JVM活跃。你必须stop ()活动SparkContext在创建一个新的。

SparkContext实例不支持跨多个过程的分享,和PySpark并不能保证多处理执行。使用线程的并发处理的目的。

例子

> > >pyspark.context进口SparkContext> > >sc=SparkContext(“本地”,“测试”)> > >星际2=SparkContext(“本地”,“test2”)回溯(最近的电话):ValueError:

方法

蓄电池(价值[accum_param])

创建一个蓄电池用给定的初始值,使用一个给定的AccumulatorParamhelper对象定义如何添加值的数据类型。

addArchive(路径)

添加一个档案下载这个火花每一个节点上工作。

addClusterWideLibraryToPath(库名)

addFile(路径(递归)

添加一个文件下载,这引发的工作在每一个节点。

addIsolatedLibraryPath(库名)

.egg, . zip或. jar库的路径添加到系统。路径,and add it to _python_includes for passing it to executor.

addPyFile(路径)

添加一个. py或zip依赖这SparkContext上执行所有任务。

binaryFiles(路径[minPartitions])

从HDFS读取二进制文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI作为一个字节数组。

binaryRecords(recordLength路径)

加载数据从一个平坦的二进制文件,假设每个记录是一组数字与指定的数值格式(见ByteBuffer),和每个记录的字节数是恒定的。

广播(值)

广播一个只读变量到集群,返回广播对象阅读它在分布式功能。

cancelAllJobs()

取消所有的工作计划或正在运行。

cancelJobGroup(groupId)

取消指定集团积极工作。

dump_profiles(路径)

概要文件转储数据目录路径

emptyRDD()

创建一个抽样没有分区或元素。

getCheckpointDir()

返回目录抽样检查点。

getConf()

getLocalProperty(关键)

当地房地产在这个线程,或null如果是失踪。

getOrCreate([设计])

获取或实例化一个SparkContext并注册它作为一个单例对象。

hadoopFile(路径、inputFormatClass keyClass…)

读一个“老”具有任意键和值的Hadoop InputFormat类HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。

hadoopRDD(keyClass inputFormatClass valueClass)

读一个“老”具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递

init_batched_serializer(数据(,numSlices))

Init成批序列化器和数据并行处理成一个抽样numSlices批量大小。

newAPIHadoopFile(路径、inputFormatClass…)

阅读的新API具有任意键和值的Hadoop InputFormat类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。

newAPIHadoopRDD(keyClass inputFormatClass…)

阅读的新API具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递

并行化(c [, numSlices])

分配一个本地Python集合形成一个抽样。

pickleFile(名字[minPartitions])

加载一个抽样之前保存使用RDD.saveAsPickleFile ()方法。

范围(开始、结束步骤,numSlices])

创建一个新的包含元素从抽样的int开始结束(独家),增加了一步每一个元素。

runJob(抽样,partitionFunc[,分区,…))

执行给定partitionFunc指定的分区上,返回结果的数组元素。

sequenceFile(路径,valueClass keyClass…))

读了Hadoop SequenceFile任意键和值可写的类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。

setCheckpointDir(目录名)

设置的目录抽样将检查点。

setJobDescription(值)

设置一个人类可读的描述当前的工作。

setJobGroup(groupId,描述[…])

分配一个组ID的所有工作开始由这个线程,直到组ID设置为不同的值或清除。

setLocalProperty(关键字,值)

设置本地属性影响工作从这个线程提交,如火花公平调度器池。

setLogLevel(logLevel)

控制我们的logLevel。

setSystemProperty(关键字,值)

设置一个Java系统属性,如spark.executor.memory。

show_profiles()

打印配置文件数据发送到stdout

sparkUser()

获得用户的SPARK_USER SparkContext运行。

statusTracker()

返回StatusTracker对象

停止()

关闭SparkContext。

文本文件(名称、minPartitions use_unicode])

从HDFS读取一个文本文件,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI,并返回一个字符串抽样。

联盟(抽样)

建立联盟的抽样的列表。

wholeTextFiles(道路、minPartitions…)

从HDFS读取文本文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。

属性

PACKAGE_EXTENSIONS

applicationId

火花的惟一标识符的应用程序。

defaultMinPartitions

默认最小数量的分区Hadoop抽样时由用户

defaultParallelism

默认级别的并行使用时由用户(如。

资源

开始时间

返回时代火花上下文时就开始了。

uiWebUrl

返回的URL由这个SparkContext SparkUI实例开始

版本

火花的版本运行该应用程序。