pyspark.SparkContext¶
-
类
pyspark。
SparkContext
( 主:可选(str) =没有,浏览器名称:可选(str) =没有,sparkHome:可选(str) =没有,pyFiles:可选列表(str) = None,环境:可选(Dict (str,任何]]=没有,batchSize: int = 0,序列化器:pyspark.serializers。序列化器= CloudPickleSerializer (),设计:可选(pyspark.conf。SparkConf] =没有,(py4j.java_gateway网关:可选。JavaGateway] =没有,(py4j.java_gateway jsc:可选。JavaObject] =没有,profiler_cls: [pyspark.profiler类型。BasicProfiler] = <类“pyspark.profiler.BasicProfiler”>,udf_profiler_cls: [pyspark.profiler类型。UDFBasicProfiler] = <类“pyspark.profiler.UDFBasicProfiler”> ) ¶ -
主要入口点火花的功能。SparkContext代表连接火花集群,并可用于创建
抽样
和广播变量集群。当你创建一个新的SparkContext,至少掌握和应用程序名称应该设置,通过这里的命名参数或通过相依。
- 参数
-
- 主 str,可选
-
集群要连接的URL(例如,便:/ /主持人:港口,火花:/ /主持人:港口,当地[4])。
- 浏览器名称 str,可选
-
一个名字为你工作,集群web UI上显示。
- sparkHome str,可选
-
火花集群节点上安装的位置。
- pyFiles 列表中,选
-
收藏的. zip或. py文件发送到集群和添加到PYTHONPATH环境。这些可以在本地文件系统路径或HDFS, HTTP、HTTPS、FTP url。
- 环境 东西,可选
-
字典的工作节点上设置环境变量。
- batchSize int,可选
-
Python对象的数量表示为一个Java对象。设置1禁用批处理,0自动选择基于对象大小批量大小,或1使用无限批量大小
-
序列化器
pyspark.serializers.Serializer
、可选 -
抽样的序列化器。
-
相依
pyspark.SparkConf
、可选 -
一个对象设置引发属性。
-
网关
py4j.java_gateway.JavaGateway
、可选 -
使用现有的网关和JVM,否则一个新的JVM将被实例化。这只是内部使用。
-
约翰逊航天中心
py4j.java_gateway.JavaObject
、可选 -
JavaSparkContext实例。这只是内部使用。
- profiler_cls 类型,可选
-
一个类的自定义配置(默认是分析器使用
pyspark.profiler.BasicProfiler
)。 - udf_profiler_cls 类型,可选
-
类的自定义分析器udf分析(默认是使用
pyspark.profiler.UDFBasicProfiler
)。
笔记
只有一个
SparkContext
应该每个JVM活跃。你必须stop ()活动SparkContext
在创建一个新的。SparkContext
实例不支持跨多个过程的分享,和PySpark并不能保证多处理执行。使用线程的并发处理的目的。例子
> > >从pyspark.context进口SparkContext> > >sc=SparkContext(“本地”,“测试”)> > >星际2=SparkContext(“本地”,“test2”)回溯(最近的电话):…ValueError:…
方法
蓄电池
(价值[accum_param])创建一个
蓄电池
用给定的初始值,使用一个给定的AccumulatorParam
helper对象定义如何添加值的数据类型。addArchive
(路径)添加一个档案下载这个火花每一个节点上工作。
addClusterWideLibraryToPath
(库名)addFile
(路径(递归)添加一个文件下载,这引发的工作在每一个节点。
addIsolatedLibraryPath
(库名).egg, . zip或. jar库的路径添加到系统。路径,and add it to _python_includes for passing it to executor.
addPyFile
(路径)添加一个. py或zip依赖这SparkContext上执行所有任务。
binaryFiles
(路径[minPartitions])从HDFS读取二进制文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI作为一个字节数组。
binaryRecords
(recordLength路径)加载数据从一个平坦的二进制文件,假设每个记录是一组数字与指定的数值格式(见ByteBuffer),和每个记录的字节数是恒定的。
广播
(值)广播一个只读变量到集群,返回
广播
对象阅读它在分布式功能。取消所有的工作计划或正在运行。
cancelJobGroup
(groupId)取消指定集团积极工作。
dump_profiles
(路径)概要文件转储数据目录路径
emptyRDD
()创建一个抽样没有分区或元素。
返回目录抽样检查点。
getConf
()getLocalProperty
(关键)当地房地产在这个线程,或null如果是失踪。
getOrCreate
([设计])获取或实例化一个SparkContext并注册它作为一个单例对象。
hadoopFile
(路径、inputFormatClass keyClass…)读一个“老”具有任意键和值的Hadoop InputFormat类HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
hadoopRDD
(keyClass inputFormatClass valueClass)读一个“老”具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递
init_batched_serializer
(数据(,numSlices))Init成批序列化器和数据并行处理成一个抽样numSlices批量大小。
newAPIHadoopFile
(路径、inputFormatClass…)阅读的新API具有任意键和值的Hadoop InputFormat类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
newAPIHadoopRDD
(keyClass inputFormatClass…)阅读的新API具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递
并行化
(c [, numSlices])分配一个本地Python集合形成一个抽样。
pickleFile
(名字[minPartitions])加载一个抽样之前保存使用
RDD.saveAsPickleFile ()
方法。范围
(开始、结束步骤,numSlices])创建一个新的包含元素从抽样的int开始来结束(独家),增加了一步每一个元素。
runJob
(抽样,partitionFunc[,分区,…))执行给定partitionFunc指定的分区上,返回结果的数组元素。
sequenceFile
(路径,valueClass keyClass…))读了Hadoop SequenceFile任意键和值可写的类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
setCheckpointDir
(目录名)设置的目录抽样将检查点。
设置一个人类可读的描述当前的工作。
setJobGroup
(groupId,描述[…])分配一个组ID的所有工作开始由这个线程,直到组ID设置为不同的值或清除。
setLocalProperty
(关键字,值)设置本地属性影响工作从这个线程提交,如火花公平调度器池。
setLogLevel
(logLevel)控制我们的logLevel。
setSystemProperty
(关键字,值)设置一个Java系统属性,如spark.executor.memory。
打印配置文件数据发送到stdout
获得用户的SPARK_USER SparkContext运行。
返回
StatusTracker
对象停止
()关闭SparkContext。
文本文件
(名称、minPartitions use_unicode])从HDFS读取一个文本文件,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI,并返回一个字符串抽样。
联盟
(抽样)建立联盟的抽样的列表。
wholeTextFiles
(道路、minPartitions…)从HDFS读取文本文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
属性
火花的惟一标识符的应用程序。
默认最小数量的分区Hadoop抽样时由用户
默认级别的并行使用时由用户(如。
返回时代火花上下文时就开始了。
返回的URL由这个SparkContext SparkUI实例开始
火花的版本运行该应用程序。