pyspark.SparkContext¶

类 pyspark。 SparkContext ( 主:可选(str) =没有,浏览器名称:可选(str) =没有,sparkHome:可选(str) =没有,pyFiles:可选列表(str) = None,环境:可选(Dict (str,任何]]=没有,batchSize: int = 0,序列化器:pyspark.serializers。序列化器= CloudPickleSerializer (),设计:可选(pyspark.conf。SparkConf] =没有,(py4j.java_gateway网关:可选。JavaGateway] =没有,(py4j.java_gateway jsc:可选。JavaObject] =没有,profiler_cls: [pyspark.profiler类型。BasicProfiler] = <类“pyspark.profiler.BasicProfiler”>,udf_profiler_cls: [pyspark.profiler类型。UDFBasicProfiler] = <类“pyspark.profiler.UDFBasicProfiler”> ) ¶

主要入口点火花的功能。SparkContext代表连接火花集群,并可用于创建抽样和广播变量集群。

当你创建一个新的SparkContext,至少掌握和应用程序名称应该设置,通过这里的命名参数或通过相依。

参数

主 str,可选: 集群要连接的URL(例如,便:/ /主持人:港口,火花:/ /主持人:港口,当地[4])。
浏览器名称 str,可选: 一个名字为你工作,集群web UI上显示。
sparkHome str,可选: 火花集群节点上安装的位置。
pyFiles 列表中,选: 收藏的. zip或. py文件发送到集群和添加到PYTHONPATH环境。这些可以在本地文件系统路径或HDFS, HTTP、HTTPS、FTP url。
环境东西,可选: 字典的工作节点上设置环境变量。
batchSize int,可选: Python对象的数量表示为一个Java对象。设置1禁用批处理,0自动选择基于对象大小批量大小,或1使用无限批量大小
序列化器 pyspark.serializers.Serializer、可选: 抽样的序列化器。
相依 pyspark.SparkConf、可选: 一个对象设置引发属性。
网关 py4j.java_gateway.JavaGateway、可选: 使用现有的网关和JVM,否则一个新的JVM将被实例化。这只是内部使用。
约翰逊航天中心 py4j.java_gateway.JavaObject、可选: JavaSparkContext实例。这只是内部使用。
profiler_cls 类型,可选: 一个类的自定义配置(默认是分析器使用pyspark.profiler.BasicProfiler)。
udf_profiler_cls 类型,可选: 类的自定义分析器udf分析(默认是使用pyspark.profiler.UDFBasicProfiler)。

笔记

只有一个SparkContext应该每个JVM活跃。你必须stop ()活动SparkContext在创建一个新的。

SparkContext实例不支持跨多个过程的分享,和PySpark并不能保证多处理执行。使用线程的并发处理的目的。

例子

           > > >从pyspark.context进口SparkContext> > >sc=SparkContext(“本地”,“测试”)> > >星际2=SparkContext(“本地”,“test2”)回溯(最近的电话):…ValueError:…
          

方法

`蓄电池`(价值[accum_param])	创建一个`蓄电池`用给定的初始值,使用一个给定的`AccumulatorParam`helper对象定义如何添加值的数据类型。
`addArchive`(路径)	添加一个档案下载这个火花每一个节点上工作。
`addClusterWideLibraryToPath`(库名)
`addFile`(路径(递归)	添加一个文件下载,这引发的工作在每一个节点。
`addIsolatedLibraryPath`(库名)	.egg, . zip或. jar库的路径添加到系统。路径,and add it to _python_includes for passing it to executor.
`addPyFile`(路径)	添加一个. py或zip依赖这SparkContext上执行所有任务。
`binaryFiles`(路径[minPartitions])	从HDFS读取二进制文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI作为一个字节数组。
`binaryRecords`(recordLength路径)	加载数据从一个平坦的二进制文件,假设每个记录是一组数字与指定的数值格式(见ByteBuffer),和每个记录的字节数是恒定的。
`广播`(值)	广播一个只读变量到集群,返回`广播`对象阅读它在分布式功能。
`cancelAllJobs`()	取消所有的工作计划或正在运行。
`cancelJobGroup`(groupId)	取消指定集团积极工作。
`dump_profiles`(路径)	概要文件转储数据目录路径
`emptyRDD`()	创建一个抽样没有分区或元素。
`getCheckpointDir`()	返回目录抽样检查点。
`getConf`()
`getLocalProperty`(关键)	当地房地产在这个线程,或null如果是失踪。
`getOrCreate`([设计])	获取或实例化一个SparkContext并注册它作为一个单例对象。
`hadoopFile`(路径、inputFormatClass keyClass…)	读一个“老”具有任意键和值的Hadoop InputFormat类HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
`hadoopRDD`(keyClass inputFormatClass valueClass)	读一个“老”具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递
`init_batched_serializer`(数据(,numSlices))	Init成批序列化器和数据并行处理成一个抽样numSlices批量大小。
`newAPIHadoopFile`(路径、inputFormatClass…)	阅读的新API具有任意键和值的Hadoop InputFormat类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
`newAPIHadoopRDD`(keyClass inputFormatClass…)	阅读的新API具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递
`并行化`(c [, numSlices])	分配一个本地Python集合形成一个抽样。
`pickleFile`(名字[minPartitions])	加载一个抽样之前保存使用`RDD.saveAsPickleFile ()`方法。
`范围`(开始、结束步骤,numSlices])	创建一个新的包含元素从抽样的int开始来结束(独家),增加了一步每一个元素。
`runJob`(抽样,partitionFunc[,分区,…))	执行给定partitionFunc指定的分区上,返回结果的数组元素。
`sequenceFile`(路径,valueClass keyClass…))	读了Hadoop SequenceFile任意键和值可写的类从HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。
`setCheckpointDir`(目录名)	设置的目录抽样将检查点。
`setJobDescription`(值)	设置一个人类可读的描述当前的工作。
`setJobGroup`(groupId,描述[…])	分配一个组ID的所有工作开始由这个线程,直到组ID设置为不同的值或清除。
`setLocalProperty`(关键字,值)	设置本地属性影响工作从这个线程提交,如火花公平调度器池。
`setLogLevel`(logLevel)	控制我们的logLevel。
`setSystemProperty`(关键字,值)	设置一个Java系统属性,如spark.executor.memory。
`show_profiles`()	打印配置文件数据发送到stdout
`sparkUser`()	获得用户的SPARK_USER SparkContext运行。
`statusTracker`()	返回`StatusTracker`对象
`停止`()	关闭SparkContext。
`文本文件`(名称、minPartitions use_unicode])	从HDFS读取一个文本文件,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI,并返回一个字符串抽样。
`联盟`(抽样)	建立联盟的抽样的列表。
`wholeTextFiles`(道路、minPartitions…)	从HDFS读取文本文件的目录,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。

属性

`PACKAGE_EXTENSIONS`
`applicationId`	火花的惟一标识符的应用程序。
`defaultMinPartitions`	默认最小数量的分区Hadoop抽样时由用户
`defaultParallelism`	默认级别的并行使用时由用户(如。
`资源`
`开始时间`	返回时代火花上下文时就开始了。
`uiWebUrl`	返回的URL由这个SparkContext SparkUI实例开始
`版本`	火花的版本运行该应用程序。

以前的

火花的核心

下一个

pyspark.RDD