CPU核心限制防止创建集群
问题集群创建失败一个云提供商的消息错误当你徘徊在集群的状态。云提供商发射失败:云提供商设置集群时遇到错误。当你查看集群事件日志来获得更多的细节,您将看到一条消息对核心配额限制。操作结果超过配额限制。
0分钟的阅读时间如何分析用户界面性能问题
问题似乎砖用户界面运行缓慢。导致用户界面的性能问题通常发生由于网络延迟或数据库查询比预期更多的时间。为了解决这种类型的问题,您需要收集网络日志和分析他们看到网络流量的影响。在大多数情况下,…
1分钟的阅读时间沛富客户端挂如果使用不正确的客户机ID或错误的路径
问题您正在使用Azure数据存储(ADLS)代湖。当你试图访问一个Azure Blob集群文件系统(沛富)路径从一个砖,命令挂起。启用调试日志,你可以看到以下的堆栈跟踪司机日志:造成的:. io .IOException:服务器返回的HTTP响应代码:400的URL: https://login.microso..。
1分钟的阅读时间SSO服务器原始URL重定向到,不要虚荣砖URL
问题当你登录到砖使用一个虚荣的URL(例如mycompany.cloud.www.neidfyre.com),你被重定向到一个单点登录(SSO)服务器进行身份验证。当服务器将您重定向回砖网站,虚荣的URL更改URL原始部署URL(例如dbc - XXXX.cloud.www.neidfyre.com)。这可以…
0分钟的阅读时间实验中使用自定义构件存储位置时发出警告
问题,当你创建一个MLflow尝试自定义工件位置,得到以下警告:引起MLflow实验权限(AWS | Azure | GCP)执行构件在MLflow跟踪,使您能够轻松地控制访问数据,模型,和其他文件。MLflow不能保证实施访问控制的基于“增大化现实”技术的…
0分钟的阅读时间实验使用遗留工件存储位置时发出警告
问题一个新的图标出现在MLflow实验页面下面的开放获取警告:引起MLflow实验权限(AWS | Azure | GCP)执行在MLflow跟踪工件,使您能够轻松地控制访问数据,模型,和其他文件。在MLflow 1.11及以上,新实验构件存储在一个MLflow-mana…
0分钟的阅读时间工作失败由于数据湖Azure存储(ADLS)创建的限制
问题当您运行在Azure的工作涉及创建文件数据存储(ADLS)湖,Gen1或者代,发生下列异常:由于:. io .IOException:创建失败与错误0 x83090c25(文件和文件夹被创建的速度过高)。[745 c5836 - 264 - e - 470 - c - 9人私下偷偷收藏盒式c605f1c100f5]失败与错误0 x83090c25(文件和fo…
0分钟的阅读时间在工作区中工作没有进展
就业问题在工作区中未能在任何集群上运行。因为这可能发生如果你有改变了现有的联接工作区。改变现有的联接Azure砖工作空间不支持。检查部署Azure砖在Azure的虚拟网络(VNet注射)更多的细节。集群解决方案打开司机登录t…
0分钟的阅读时间如何排序S3文件修改时间在砖笔记本吗
问题当你使用S3 dbutils工具列出文件位置,S3文件列表以随机的顺序。然而,dbutils没有提供任何方法根据文件修改时间排序。dbutils不列表修改时间。解决方案使用Hadoop文件系统API S3文件,如下所示:% scala进口org ....
0分钟的阅读时间任务反序列化时间很高
问题你的任务正在运行慢于预期。你审查阶段细节引发UI集群,看到任务反序列化时间高。导致Cluster-installed库(AWS | Azure GCP) |只安装在司机在集群启动时。这些库只安装在执行器当第一个任务……
0分钟的阅读时间编写日志时拒绝访问S3 bucket
问题,当你试着写日志文件到一个S3 bucket,你得到的错误:com.amazonaws.services.s3.model。AmazonS3Exception:拒绝访问(服务:Amazon S3;状态码:403;错误代码:AccessDenied;请求ID: 2 f8d8a07cd8817ea), S3扩展请求ID:导致DBFS山是S3存储桶中假定的角色和使用sse-kms加密。Th……
0分钟的阅读时间如何更新嵌套列
火花不支持添加新的列或删除现有列嵌套结构。特别是,withColumn放数据集类的方法不允许您指定一个列名不同于任何顶级列。例如,假设您有一个数据集与以下模式:% scala val模式=(新StructType)。…
0分钟的阅读时间如何切换SNS流工作提升到一个新的SQS队列
问题你有结构化流工作运行通过S3-SQS连接器。假设您想重现源SQS, SNS的支持数据,你想进行一个新的队列处理同样的工作,在同一输出目录。解决方案使用以下程序:创建新的SQS队列和订阅s3-events(从SNS)。在…
0分钟的阅读时间处理分区列值时使用一个SQS队列作为流源
问题如果在S3中存储的数据分区,分区列值用于源目录结构中的文件夹名称。然而,如果您使用一个SQS队列作为流媒体来源,S3-SQS源不能检测到分区列值。例如,如果您在JSON格式保存以下DataFrame S3: % scala val df = spark.range (1…
0分钟的阅读时间不能使用我的角色与表ACL
问题你想用我的角色当表启用了acl,但你得到一个错误凭证说不能。NoCredentialsError:无法找到凭证导致当一个表启用了ACL, EC2实例元数据服务的访问。这是一个安全措施,防止用户获取我访问凭证。索尔……
0分钟的阅读时间如何加快交叉验证
Hyperparameter调优的Apache SparkML模型需要很长时间,这取决于网格的尺寸参数。你可以提高性能的交叉验证步骤SparkML加快速度:缓存数据在运行任何功能转换或建模步骤之前,包括交叉验证。过程指的是数据多…
0分钟的阅读时间S3零件号必须在1到10000之间包容
问题,当你将一个大文件从本地文件系统复制到DBFS S3,以下异常可能发生:Amazon.S3。AmazonS3Exception:零件号必须是1到10000之间的一个整数,包容的原因这是一个S3限制段数。部分文件只能编号从1到10000,包容性。解决阻止这个异常的职业…
0分钟的阅读时间Apache火花CSV指标保存到DBFS位置
引发了一个可配置的指标系统,支持下沉,包括CSV文件。在本文中,我们将向您展示如何配置一个砖集群使用CSV水槽和坚持这些指标DBFS位置。创建一个init脚本的所有配置在一个init脚本完成。init脚本做了以下3个…
1分钟的阅读时间确定不使用工作
工作区有限制的数量可以在UI中显示的工作。目前的工作极限是1000。如果你超过工作极限,你收到QUOTA_EXCEEDED错误消息。“error_code”:“QUOTA_EXCEEDED”、“消息”:“配额的数量的工作。当前的限额是1000。这个配额只应用于岗位通过…
1分钟的阅读时间randomSplit方法的行为
当使用randomSplit DataFrame,你可能会观察到不一致的行为。这里有一个例子:% python df = spark.read.format (inconsistent_data_source) .load () a, b = df.randomSplit ([0.5, 0.5]) a.join(广播(b),在=“id”,如何=“内在”).count()通常这个查询返回0。然而,根据基础数据源或输入…
0分钟的阅读时间达美航空合并不能解决嵌套的领域
问题你尝试三角洲与自动模式演化合并,但它与达美航空合并失败:无法解决“字段”由于数据类型不匹配的错误消息。因为这可能发生,如果你对嵌套列字段的更改。例如,假设我们有一个专栏叫地址字段streetName houseNumber,城市不…
0分钟的阅读时间RocksDB未能获得一个锁
问题你想使用RocksDB作为结构化的流媒体应用程序的存储状态,当你得到一个错误消息说实例不能被收购。引起的:. lang。IllegalStateException: RocksDB实例不能被[ThreadId: 742,任务:140.3在3152年阶段,TID 553193]不是[ThreadI公布的…
0分钟的阅读时间工作失败当使用Spark-Avro十进制值写入AWS红移
问题5砖运行时版本。x和,当亚马逊写小数红移使用Spark-Avro作为默认临时文件格式,要么写操作失败的例外:错误(代码1207),数据加载到红移:“无效的数字,值”,Pos 0,类型:小数”或写操作写null的……
0分钟的阅读时间序列化任务太大
如果你看到下错误消息,你可以修复这个错误通过改变引发配置(AWS | Azure)当你开始集群。序列化任务XXX: XXX是XXX字节,超过最大允许:spark.rpc.message。最大尺寸(XXX字节)。考虑增加spark.rpc.message。最大尺寸或使用广播变量为大值。改变……
0分钟的阅读时间日期函数只接受int值在Apache 3.0火花
问题您正试图使用date_add()或date_sub()函数在火花3.0中,但它们在SQL语句返回一个错误:AnalysisException错误消息。在火花2.4和下面两个函数都会正常工作。% sql select date_add (cast(“1964-05-23”日期),“12.34”)因为你试图使用一个部分或字符串值作为…
0分钟的阅读时间从用例类生成模式
火花提供了一种简便的方法来生成一个模式从一个Scala类。case类,使用方法ScalaReflection.schemaFor[一].dataType.asInstanceOf [StructType]。例如:% scala org.apache.spark.sql.types进口。StructType org.apache.spark.sql.catalyst进口。ScalaReflection case类(关键:字符串,时间:java.sql。时间戳,日期:java ....
0分钟的阅读时间故障排除JDBC / ODBC访问Azure数据存储Gen2湖
问题信息在一般情况下,您应该使用砖运行时5.2及以上,其中包括一个内置的Azure Blob文件系统(沛富)司机,当你想访问Azure数据存储Gen2湖(ADLS Gen2)。本文适用于用户访问ADLS Gen2存储使用JDBC / ODBC。当您运行一个SQL查询从JDBC、ODBC客户端交流……
1分钟的阅读时间数据太长列的错误
问题你想插入一个表结构,但你会得到一个java.sql。SQLException异常:数据太长列的错误。引起的:java.sql。SQLException异常:数据太长列“TYPE_NAME”在第一行查询的方法是:插入COLUMNS_V2 (CD_ID,评论,“COLUMN_NAME”、TYPE_NAME INTEGER_IDX)值(?,?,?,?,?),参数(103182年,《零》,地址…
1分钟的阅读时间未能扩大EBS卷
砖工作失败的问题,由于缺乏空间在磁盘上,即使存储启用自动伸缩。当你回顾集群事件日志,您将看到一条消息,指出实例未能扩大磁盘由于授权错误。实例i-xxxxxxxxx未能扩大磁盘,因为:你未被授权执行该操作。恩……
0分钟的阅读时间EBS卷泄露
问题在AWS集群是终止之后,一些EBS卷不会自动地删除。这些流浪,未婚EBS卷通常被称为“泄露”卷。导致砖总是集DeletionOnTermination = true EBS卷时创建启动集群。因此,无论何时终止集群实例,AWS应该……
0分钟的阅读时间OSError当访问MLflow实验工件
问题你得到一个OSError:没有这样的文件或目录错误消息当试图下载或日志构件使用下列之一:MlflowClient.download_artifacts () mlflow。(味道).log_model () mlflow。(味道).load_model () mlflow.log_artifacts () OSError:没有这样的文件或目录:/ dbfs /砖/ mlflow-tracking / < experiment-id > / <运行-…
0分钟的阅读时间流与文件水槽:复苏的问题如果你改变检查点或输出目录
当你流数据到一个文件中,你应该总是一起改变检查点和输出目录。否则,你可以得到故障或意外的输出。Apache火花输出目录内创建一个文件夹命名为_spark_metadata。这个文件夹包含写前每批次运行日志。这就是火花就只有一次guarant……
0分钟的阅读时间如何配置单核执行人JNI库运行吗
当您创建一个集群,人均砖发射一个Apache火花executor实例的节点,和执行程序使用的所有核心节点。在某些情况下,例如,如果你想运行非线程安全的JNI库,您可能需要一个执行者,只有一个核心或任务槽,和不会尝试运行并发任务。在这个c…
1分钟的阅读时间如何提高性能与用桶装吗
用桶装在Apache火花SQL是一种优化技术。数据分配在指定数量的桶中,根据来自一个或多个用桶装列值。用桶装,从而改进了性能洗牌和排序数据表连接等下游业务之前。是初始的权衡开销洗牌和s…
0分钟的阅读时间使OpenJSSE和TLS 1.3
查询和转换是加密之前发送给您的集群。默认情况下,劳动者在一个集群节点之间的数据交换是不加密的。如果您需要这些数据是加密的,您可以使用AES加密流量集群工作节点之间128通过TLS 1.2连接。在某些情况下,您可能希望使用TLS 1.3我…
0分钟的阅读时间null和空字符串在分区列保存为null
问题如果你保存数据包含空字符串和null值在表的一列是分区的,后两个值成为零写作和阅读。为了说明这一点,创建一个简单的DataFrame: % scala org.apache.spark.sql.types进口。_进口org.apache.spark.sql.catalyst.encoders。RowEncoder val data = Seq(行(" ")……
0分钟的阅读时间FileReadException当阅读三角洲表
问题您试图从挂载存储和读取三角洲表得到一个FileReadException错误。FileReadException:当abfss阅读文件时发生错误:redacted@redacted.dfs.core.windows.net/redacted/redacted/redacted/redacted/partition=redacted/part - 00042 - 0725 - ec45 - 5 - c32 - 412 a - ab27 5 - bc88c058773.c000.snappy.parquet。事务日志中引用一个文件…
2分钟的阅读时间三角洲湖更新查询失败IllegalState例外
问题当你执行一个三角洲湖更新、删除,或合并查询使用Python udf的任何转换,不能用以下例外:AWS . lang。UnsupportedOperationException:方式错误的SQL语句:IllegalStateException:文件(s3a: / / xxx / table1)中被重写未找到候选人文件:s3a: / / xxx /表/部分- 000…
0分钟的阅读时间如何指定斜在数据集和DataFrame-based加入命令提示吗
当您执行一个连接命令DataFrame或数据集对象,如果你发现困在查询完成少量的任务由于数据倾斜,您可以指定的斜提示提示(斜)方法:df.hint(“斜”)。倾斜连接优化(AWS | Azure | GCP)上执行指定的DataFrame斜提示。在…
0分钟的阅读时间区分活跃和死的工作
问题有太多的集群并行工作,你经常看到一些工作停留在火花UI没有任何进展。这复杂识别活动工作/阶段与死者的工作阶段。导致每当有太多并发工作一个集群上运行,有可能引发内部eventListenerBus…
0分钟的阅读时间PERMISSION_DENIED错误当访问MLflow实验工件
问题你得到一个PERMISSION_DENIED错误当试图访问一个MLflow工件使用MLflow客户端。RestException: PERMISSION_DENIED:用户> <用户没有权限视图的id < experiment-id >或RestException实验:PERMISSION_DENIED:用户> <用户没有权限编辑的实验id <前女友…
0分钟的阅读时间如何执行组K-fold交叉验证与Apache火花
交叉验证随机分割训练数据到指定数量的折叠。为了防止数据泄漏,相同的数据出现在多个折叠可以使用组。scikit-learn支持组K-fold交叉验证来确保折叠是独特的和非重叠。火花spark-sklearn库可以使用,分发……
0分钟的阅读时间集群取消Python命令执行后安装散景
问题在Python笔记本集群返回取消。检查驱动程序(std.err)登录集群配置页面一个堆栈跟踪和错误消息类似如下:log4j:警告没有输出源可以发现记录器(com.databricks.conf.trusted.ProjectConf $)。log4j:警告请初始化log4j系统正常。log4j:警告年代…
1分钟的阅读时间删除Log4j 1。x JMSAppender SocketServer类从类路径中
砖最近发表的博客在Log4j 2脆弱性(cve - 2021 - 44228)的研究和评估。砖不直接使用Log4j版本已知受此影响的脆弱性在砖平台在某种程度上我们理解可能是脆弱的。bob体育客户端下载砖也不影响使用Log4j 1类。x与已知vul……
2分钟的阅读时间安装rJava和RJDBC库
本文解释如何安装rJava和RJBDC库。问题当你安装rJava和RJDBC库在笔记本电池使用下面的命令:% r安装。包(c (“rJava”、“RJDBC”))你看到以下错误:错误:配置失败包rJava导致rJava和RJDBC包检查Java依赖和…
0分钟的阅读时间Apache引发多个并发运行时JAR工作失败
问题如果你运行多个Apache火花JAR同时工作,一些运行可能会失败的错误:org.apache.spark.sql。AnalysisException:表或视图不发现:xxxxxxx;1号线pos 48由于一个错误引起这个错误发生在Scala中。当一个对象扩展应用,其val领域不再是不可变的,他们可以改变主相遇时……
0分钟的阅读时间检查点文件不删除当使用foreachBatch ()
问题你有流工作使用foreachBatch DataFrames()的过程。% scala streamingDF.writeStream.outputMode(“追加”)。foreachBatch {(batchDF: DataFrame batchId:长)= > batchDF.write.format .mode(“铺”)(“覆盖”).save (output_directory)} .start()被创建检查点文件,但未被删除。您可以验证th……
0分钟的阅读时间不能修改Apache配置火花的价值
问题你想设置值的火花配置在笔记本里,并得到一个不能修改的价值火花配置错误。例如:sql设置spark.serializer = org.apache.spark.serializer %。KryoSerializer错误的SQL语句:AnalysisException:不能修改引发的价值配置:spark.serializer;因为一组命令不会磨破…
0分钟的阅读时间在RStudio如何保存和共享代码吗
问题与砖的笔记本内置的,版本控制,开发的代码在RStudio丢失高并发性集群托管RStudio关闭。解决持续RStudio共享代码,做以下之一:从RStudio,将代码保存到一个文件夹可以从砖笔记本和RStudi DBFS……
0分钟的阅读时间访问红移与NullPointerException失败
问题有时当你读一个红移表:% scala val original_df = spark.read。格式(“com.databricks.spark.redshift”)。选项(“url”, url)。用户选项(“用户”)。选项(“密码”,密码)。选项(“查询”,查询)。选项(“forward_spark_s3_credentials”,真正的)。选项(“tempdir”、“路径”)。load ()……
1分钟的阅读时间由于文件大小限制笔记本自动保存失败
问题笔记本自动保存失败,并显示以下错误消息:未能保存修订:笔记本大小超过限制。这是最常见的引起的细胞与大的结果。删除一些细胞或把笔记本。导致最大笔记本大小允许自动保存8 MB。先解决方案,使用你的br检查你的笔记本大小的文件……
0分钟的阅读时间不能读取数据砖对象存储在DBFS根目录
问题一个拒绝访问错误回报当你试图阅读砖对象存储在DBFS在blob存储根目录外砖集群。因为这是正常的行为DBFS根目录。砖家的对象库和其他临时DBFS系统文件的根目录。砖是唯一的……
0分钟的阅读时间工作失败典型错误消息
问题你的工作运行失败与压制由于观察典型错误错误消息。集群成为遥不可及的在运行原因:xxx-xxxxxx-xxxxxxx压制是由于观察典型错误导致工作在这个集群有过多大的结果返回到Apache火花司机节点。结果,司机服务耗尽m…
0分钟的阅读时间如何正确更新Maven库在砖吗
问题你让一个小更新库存储库中,但是你不想改变版本号为测试目的,因为它是一个小变化。当你把图书馆集群,您的代码变化不包括在图书馆。造成砖的一个优势是能够安装第三方或自定义天秤座……
0分钟的阅读时间如何设置嵌入式Apache蜂巢metastore吗
您可以设置一个砖使用嵌入式metastore集群。您可以使用一个嵌入式metastore当你只需要保留在集群的生命表的元数据。如果重新启动集群,元数据丢失。如果你需要持久存储表的元数据或其他数据在集群启动之后,那么你应该使用默认metastore啊……
0分钟的阅读时间CosmosDB-Spark连接器图书馆冲突
这篇文章解释了如何解决一个问题运行应用程序,使用砖CosmosDB-Spark连接器的环境。问题通常如果你添加一个Maven依赖火花集群,应用程序应该能够使用所需的连接器库。但目前,如果你简单地指定CosmosDB-Spark连接器的Maven co-ord……
0分钟的阅读时间无法访问Azure数据存储(ADLS) Gen1当湖防火墙被启用
问题当你启用了防火墙在Azure虚拟网络(联接)和你试图访问ADLS使用ADLS Gen1连接器,它失败的错误:328格式(target_id,“。”其他名称),值)329:330提高Py4JError (Py4JJavaError:调用o196.parquet时发生一个错误。:. lang。RuntimeException:找不到ADLS牌……
0分钟的阅读时间如何在CSV转储表、JSON、XML、文本或HTML格式
您想要发送你的砖砖以外的计算结果。您可以使用BI工具连接到您的集群通过JDBC和出口BI工具的结果,或保存您的表在DBFS或blob存储和复制数据通过REST API。本文介绍JSpark,一个简单的控制台工具执行SQL查询使用JDBC火花…
0分钟的阅读时间修复R包的版本
当你使用install.packages()函数来安装凹口包,你不能指定包的版本,因为预计你会安装最新版本的包,它应该兼容最新版本的依赖关系。如果你安装了一个过时的依赖,它将被更新。Som……
0分钟的阅读时间如何并行化和新闻出版总署R代码吗
并行R的代码是很困难的,因为代码运行在司机和R data.frames没有分布。通常,有现有的R是本地运行的代码转换为运行在Apache火花。在其他情况下,一些SparkR函数用于先进的统计分析和机器学习技术可能不支持分布式com……
1分钟的阅读时间Azure的网络配置数据存储Gen1导致ADLException湖:错误信息文件
问题进入Azure数据存储Gen1湖与ADLException (ADLS Gen1)失败:错误获得信息文件<文件名>当以下网络配置到位:Azure砖工作区部署在自己的虚拟网络(使用VNet注入)。允许流量通过Azure存储凭证湖透传数据。ADLS通用…
1分钟的阅读时间如何设置Apache卡夫卡砖吗
本文解释了如何设置Apache卡夫卡在AWS EC2机器上并连接砖。以下是所需的高水平的步骤创建一个卡夫卡集群,从砖笔记本连接。步骤1:创建一个新的VPC在AWS当创建新的VPC,设置新的VPC CIDR范围不同的砖VPC CIDR范围……
1分钟的阅读时间蜂巢udf
本文将展示如何创建一个蜂巢UDF,注册在火花,火花SQL查询并使用它。这里有一个蜂巢UDF将长作为参数,并返回它的十六进制表示。% scala org.apache.hadoop.hive.ql.exec进口。进口org.apache.hadoop.io UDF。LongWritable / /这个UDF需要很长整数,并将其转换为十六进制…
0分钟的阅读时间无法加载AWS凭证
AWS资源的问题当你试图访问S3, SQS或红移,操作失败,错误:com.amazonaws。SdkClientException:无法加载AWS凭证链中的任何提供者:[BasicAWSCredentialsProvider:访问密钥或密钥为空,com.amazonaws.auth。InstanceProfileCredentialsProvider@a590007a:请求的metad…
0分钟的阅读时间清单表名
问题获取的所有表名metastore您可以使用spark.catalog.listTables()或% sql显示表。如果你观察期间获取的细节你可以看到spark.catalog.listTables()通常花费的时间超过% sql显示表。导致spark.catalog.listTables()试图获取每个表的元数据,然后显示reque……
0分钟的阅读时间如何确保幂等性工作
当你提交工作通过砖工作REST API,幂等性是没有保证的。如果客户机请求超时和客户重新提交相同的请求,你可能最终得到重复的工作运行。确保工作幂等性当你提交工作通过API,您可以使用一个幂等性标记来定义一个独特的价值specif……
0分钟的阅读时间不兼容的模式在一些文件
问题引发的工作失败读取拼花时异常如下文件:在SQL语句错误:SparkException:工作阶段失败而终止:任务20阶段11227.0失败了4次,最近的失败:在舞台上失去了任务20.3 11227.0 (TID 868031、10.111.245.219执行人31):. lang。UnsupportedOperationException:方式org.a……
1分钟的阅读时间如何保存绘图文件从DBFS和显示吗
你可以节省一个图表生成与情节司机节点jpg和png文件。然后,您可以显示在一个笔记本使用displayHTML()方法。默认情况下,您保存绘制图表/砖/司机司机在集群节点/目录。使用以下过程来显示图表在稍后的时间。生成一个样本…
0分钟的阅读时间无效的数据加载到亚马逊红移时的时间戳
问题当你使用spark-redshift写操作时间戳数据保存到亚马逊红移,就可能发生以下错误,如果时间戳数据包括时区信息。错误(代码1206),数据加载到红移:“无效的时间戳格式或价值(YYYY-MM-DD HH24: MI: SSOF]”导致红移表是使用飞机时间戳数据…
0分钟的阅读时间当与Sparklyr ADLS Gen1读取数据错误
问题在使用集群启用了Azure广告凭据透传,命令你运行在集群能够读和写你的数据在Azure数据存储Gen1湖而不需要为访问存储配置服务主体的凭证。例如,您可以使用% python spark.read.csv直接访问数据(“诽谤联盟:/ /米娅……
0分钟的阅读时间Python 2日落状态
Python.org正式Python 2进入生物(临终)状态1月1日,2020年。这对你来说意味着什么呢?砖6.0运行时,以上数据砖6.0运行时,只支持Python 3。你不能用Python 2使用这些运行时创建一个集群。这些运行时创建的任何集群使用Python 3被定义。砖俄文的……
1分钟的阅读时间不支持添加输出没有水印
问题您正在执行一个聚合使用append模式和异常返回错误消息。添加输出模式不支持当流聚合流DataFrames /数据集没有水印导致您不能使用Append模式聚合DataFrame没有水印。这是通过设计。解决方案必须施加一个……
0分钟的阅读时间使用REST API如何删除所有工作
运行以下命令来删除所有工作在一个砖工作区。识别工作列表删除和他们在一个文本文件:% sh curl - x - u得到“无记名:<标记>”https:// < databricks-instance > / api / 2.0 /工作/列表| grep - o - p”job_id。{0,6}“| awk - f”:“{打印$ 2}> > job_id。三种运行一个循环中的curlcommand删除identif……
0分钟的阅读时间流的XML文件使用一个装载器
Apache火花不包括一个流API为XML文件。然而,您可以把自动装载器的特征OSS的火花批API库,Spark-XML流的XML文件。在本文中,我们提出一个基于Scala解析XML数据使用一个装载器的解决方案。安装Spark-XML库必须安装Spark-XML OSS库……
1分钟的阅读时间无法读取审计日志由于重复的列
问题你想读udit日志和得到一个AnalysisException:发现重复的列(s)错误。spark.read.format (json) .load (“dbfs: / / mnt / logs / < path-to-logs > /日期= 2021-12-07 ")/ / AnalysisException:发现重复的列数据模式(s): < some_column >的原因从2021年11月到2021年12月,数量有限的数据…
0分钟的阅读时间Python datetime对象转换为字符串
有多种方法来显示日期和时间值与Python,然而并不是所有的都容易阅读。例如,当你收集的时间戳列DataFrame并保存它作为一个Python变量,该值存储为一个datetime对象。如果你不熟悉datetime对象格式,它不是一样容易阅读常见Y……
1分钟的阅读时间设置执行器日志级别
警告本文描述的步骤与客户使用Log4j 1。x在砖集群。Log4j 1。x是不再维护和有三个已知的cf (cve cve - 2021 - 4104 - 2020 - 9488,和cve - 2019 - 17571)。如果你的代码使用一个类(JMSAppender或SocketServer)的影响,你的使用可能会影响这些vulnerabilitie……
0分钟的阅读时间管理员用户不能重新启动集群运行工作
问题,当一个用户许可开始一个集群,如砖管理员用户,提交的工作属于一个不同的用户,使用以下信息:工作失败信息:运行现有集群上执行ID <集群ID >失败由于权限不足。从集群管理器接收到的错误是:“你不…
0分钟的阅读时间由于工作速率限制工作失败
问题砖笔记本或工作的API请求返回下列错误:错误:{“error_code”:“INVALID_STATE”、“消息”:“已经有1000个工作岗位创造了在过去的3600秒,超过速度限制:每3600秒创造1000个工作岗位。”}你不能运行作业QUOTA_EXCEEDED错误信息:“error_code”:“QUOTA_EXCEEDED”、“mes……
0分钟的阅读时间无法读取文件和目录列表WASB文件系统
问题,当你试着读一个文件在WASB火花,得到以下例外:org.apache.spark。SparkException:工作阶段失败而终止:任务0阶段1.0失败了4次,最近的失败:在舞台上失去了任务0.3 1.0 (10.139.64.5 TID 19日,执行人0):shaded.databricks.org.apache.hadoop.fs.azure.AzureException: com.microsoft.a…
1分钟的阅读时间全球遗产init脚本迁移笔记本
2023年9月1日,砖将禁用遗留全球所有工作区init脚本。这种类型的init脚本被弃用后,不会使用2020年9月1日,2023年。遗留2020年全球init脚本代替当前全球init脚本框架,更可靠的继续支持。砖建议你…
1分钟的阅读时间工作失败由于集群管理器核心实例请求限制
问题一个砖笔记本或工作API返回下列错误:意想不到的失败在创建集群。导致REQUEST_LIMIT_EXCEEDED:由于API速率限制你的请求被拒绝了。请重新尝试后,或选择一个更大的节点类型。导致错误表明服务核心集群管理器实例requ……
0分钟的阅读时间缓慢的集群节点发射和失踪
集群问题需要很长时间才能启动和显示一个错误消息类似如下:集群运行但是X节点无法获得事业提供一个Azure VM通常需要2 - 4分钟,但如果集群中所有的虚拟机都不能同时供应,集群创建可以推迟。这是由于Azure砖……
0分钟的阅读时间禁用集群级DBFS init脚本
2023年5月2日,砖宣布集群级init脚本存储在DBFS弃用。集群级init脚本工作场所应该存储为文件。你可以防止用户启动集群使用集群级init脚本存储在DBFS通过设置一个集群政策。说明警告你必须是一个砖管理应用c…
0分钟的阅读时间不能种植BufferHolder;超过大小限制
问题您的Apache火花工作却是IllegalArgumentException失败:无法成长BufferHolder错误。. lang。IllegalArgumentException:不能长按大小BufferHolder XXXXXXXXX因为规模增长超过大小限制2147483632后导致BufferHolder最大大小为2147483632字节(大约2 GB)。如果一个列值超过……
0分钟的阅读时间添加一个配置设置覆盖所有默认spark.executor。extraJavaOptions设置
问题当你添加一个配置设置通过输入在Apache配置文本区域,新设置替换现有的设置,而不是附加。砖的运行时版本5.1及以下。重启原因当集群,集群从配置文件中读取设置在集群中创建UI,并覆盖……
1分钟的阅读时间编写三角洲湖表时拒绝访问S3
问题写DataFrame三角洲湖格式的内容到一个S3位置会导致一个错误:com.amazonaws.services.s3.model。AmazonS3Exception:禁止(服务:Amazon S3;状态码:403;错误代码:403禁止;请求ID: C827672D85516BA9;S3扩展请求ID:导致写操作涉及三角洲湖格式需要权限……
0分钟的阅读时间常见的错误在笔记本
有一些使用笔记本电脑时出现的常见问题。本节概述了一些常见问题和最佳实践,您应该遵循。. lang火花工作失败。NoClassDefFoundError有时候你可能会遇到一个错误:% scala . lang。行..... NoClassDefFoundError:无法初始化类读这个c美元……
0分钟的阅读时间Apache火花工作失败与环境目录没有发现错误
问题在你安装一个Python库(通过集群UI或通过使用pip),您的Apache火花工作失败的环境目录未找到错误消息。org.apache.spark。SparkException:环境/ local_disk0 /目录未找到。ephemeral_nfs cluster_libraries / python引起库安装在一个网络文件系统(NFS) th…
0分钟的阅读时间多部分上传失败
问题你观察工作失败除了:com.amazonaws。SdkClientException:无法完成多部分上传。个人部分上传失败:无法执行HTTP请求:org.apache.http.conn超时等待连接池。ConnectionPoolTimeoutException:超时等待连接池……com.amazonaws.http.Ama……
1分钟的阅读时间如何处理blob数据包含在一个XML文件吗
如果你日志事件的XML格式,那么每个XML事件记录为base64字符串。为了运行使用Apache火花,对这些数据的分析需要使用spark_xml库和BASE64DECODER API将数据进行分析。问题需要分析base64编码字符串使用火花从xml格式的日志文件。例如……
1分钟的阅读时间漏洞扫描显示漏洞在砖EC2实例
企业信息安全问题(CIS)脆弱性管理团队识别漏洞在AWS实例追溯到EC2实例由砖(工人AMI)。导致砖安全团队地址的所有关键的漏洞和更新核心和工人定期ami。然而,如果有long-r……
0分钟的阅读时间集群未能启动
本文描述了几个场景集群未能启动,并提供故障排除步骤为每个场景基于错误消息日志中找到。集群超时错误消息:司机未能及时开始INTERNAL_ERROR:火花司机未能开始300秒内集群在200秒内未能健康标出……
2分钟的阅读时间Apache火花UI显示小于总节点内存
问题引发的执行人选项卡界面显示更少的内存比实际上是可用的节点上:AWS m4。超大实例(16 GB的ram, 4核心)司机节点,显示了执行人4.5 GB内存选项卡。m4。大型实例(8 GB ram, 2芯)对于司机节点,显示执行人选项卡上的710 MB内存:Azure f8实例(16 GB, 4核心)f……
1分钟的阅读时间在SQL语句错误:AnalysisException:表或视图不发现
问题当你试图查询一个表或视图,你得到这个错误:AnalysisException:表或视图不发现当试图查询全球临时视图让你通常创建全球临时视图,这样他们可以访问不同的会话和保留,直到程序结束。你可以用下面的语句创建一个全球临时视图:% s…
0分钟的阅读时间库不可用导致工作失败
问题你正在启动工作,导入外部库,导入错误。工作原因节点重新启动时,工作失败,并显示以下错误消息:ImportError:没有模块名为XXX导致集群管理器是砖的一部分服务管理客户Apache火花集群。它发送命令来安装Python和R……
1分钟的阅读时间故障排除亚马逊红移的连接问题
问题您创建了一个VPC对等连接和配置一个Amazon红移集群在对等网络。当您试图访问集群红移,你会获得如下错误:错误信息:OperationalError:无法连接到服务器:连接超时导致这个问题可能发生如果:VPC凝视是配置错误。相应的p…
2分钟的阅读时间砖的工作失败因为库没有安装
问题砖工作失败,因为工作需要一个库,还没有安装,导致导入错误。导致错误发生,因为工作需要库安装前开始运行。如果你在集群上运行工作在以下的情况下,集群可以体验推迟安装库:当你开始一个……
0分钟的阅读时间故障排除反应迟钝的Python笔记本或取消命令
本文概述了故障排除步骤可以采取一个笔记本是反应迟钝或取消命令。检查metastore连接性问题简单的命令在新附加笔记本失败,但成功的笔记本电脑连接到相同的集群。故障排除步骤检查metastore连接。无法……
0分钟的阅读时间如何处理损坏的镶花的文件不同的模式吗
假设你有一个大问题本质上是独立的镶花文件列表,与各种不同的模式。你要读的只有那些文件匹配一个特定的模式和跳过不匹配的文件。一个解决方案可以按顺序读取文件,识别模式和联盟DataFrames在一起。然而,这种方法…
0分钟的阅读时间AnalysisException当删除表Azure-backed metastore
问题当你试图在一个外部表蜂巢2.0或2.1版本metastore部署到Azure SQL数据库,数据砖扔以下例外:com.databricks.backend.common.rpc.DatabricksExceptions SQLExecutionException美元:org.apache.spark.sql。AnalysisException: org.apache.hadoop.hive.ql.metadata。HiveException: MetaException (…
0分钟的阅读时间如何在砖上覆盖log4j配置集群
警告本文描述的步骤与客户使用Log4j 1。x在砖集群。Log4j 1。x是不再维护和有三个已知的cf (cve cve - 2021 - 4104 - 2020 - 9488,和cve - 2019 - 17571)。如果你的代码使用一个类(JMSAppender或SocketServer)的影响,你的使用可能会影响这些vulnerabilitie……
0分钟的阅读时间在一个集群上安装pyodbc时错误
问题的错误发生在您使用pip安装pyodbc库。. lang。RuntimeException:安装失败,信息:收集pyodbc”库安装失败是因为缺少的依赖关系。sasl和thrift_sasl是可选依赖sasl或Kerberos支持”导致尽管sasl和thrift_sasl啊……
1分钟的阅读时间事务日志中引用一个文件无法找到
问题你的工作失败,并显示一条消息:一个事务日志中引用文件无法找到。堆栈跟踪例子:错误的SQL语句:SparkException:工作阶段失败而终止:任务0阶段6.0失败了4次,最近的失败:在舞台上失去了任务0.3 6.0 (TID 106 XXX.XXX.XXX。XXX,遗嘱执行人0):com.databricks.sql.io.FileRe…
1分钟的阅读时间如何计算集群中核心的数量
您可以查看在工作区中砖集群的核心UI使用指标选项卡在集群上的细节页面。注意Azure砖集群节点必须安装一个标准的服务。如果司机和执行人是相同的节点类型,您还可以确定集群中的可用内核的数量以编程方式,使用Sca……
0分钟的阅读时间嵌套的JSON转换为DataFrame夷为平地
本文向您展示如何平嵌套的JSON,只使用$”列。*”和爆炸的方法。示例JSON文件示例JSON字符串传递给读者。% scala val json = " " {" id ": " 0001 ",“类型”:“甜甜圈”、“名称”:“蛋糕”、“ppu”: 0.55,“人次”:{“糊”:……
1分钟的阅读时间呈现一个R减价文件包含sparklyr代码失败
问题在你安装和配置RStudio在砖环境中,当您启动RStudio并单击针织按钮针织减价文件包含代码来初始化一个sparklyr上下文,渲染失败有以下错误:没有开始sparklyr端:对象“DATABRICKS_GUID”没有找到电话:<匿名>…tryCatch……
0分钟的阅读时间检查点文件不删除当使用显示()
问题你有使用显示()来显示DataFrames流工作。% scala val streamingDF = spark.readStream.schema(模式).parquet (< input_path >)显示(streamingDF)检查点文件被创建,但并没有被删除。您可以验证问题,方法是导航到根目录并查看/ local_disk0 / tmp /文件夹。Ch……
0分钟的阅读时间用Conda创建一个集群
Conda是一个很受欢迎的开放源代码蟒bob下载地址蛇回购的包管理系统。砖运行时对机器学习(砖运行时的ML)使用Conda管理Python库依赖关系。如果你想使用Conda,您应该使用砖运行时毫升。试图安装蟒蛇或Conda使用砖不支持运行时。符合……
0分钟的阅读时间不能从外部访问对象由砖砖
问题当您试图访问一个对象在一个S3位置由砖使用AWS CLI,以下错误发生:ubuntu@0213 - 174944 - clean111 - 10 - 93 - 15 - 150: ~ $ AWS S3 cp S3: / / <桶> / <位置> / 0 /δ/沙盒/ deileringDemo__m2 / _delta_log / 00000000000000000000。json。致命错误:发生错误(403)当调用H……
1分钟的阅读时间优化从JDBC数据源读取性能
问题从外部JDBC数据库读取数据是缓慢的。我该怎样才能提高读取性能?解决方案见砖文档中详细讨论如何优化性能时读取数据(AWS | Azure | GCP)从外部JDBC数据库....
0分钟的阅读时间如何计算砖文件系统(DBFS) S3 API调用成本
DBFS S3 bucket的成本主要是由API调用的数量,其次,存储的成本。您可以使用AWS CloudTrail日志创建一个表,计算API调用的数量,从而计算出准确的成本API请求。获得以下信息。您可能需要联系您的AWS管理员获得…
1分钟的阅读时间如何解决几个Apache蜂巢metastore问题
问题1:外部metastore表没有检查司机的日志时,你看到一个堆栈跟踪,包括所需的错误表缺失:警告查询:查询org.apache.hadoop.hive.metastore.model的候选人。MDatabase和子类导致不需要可能的候选人表缺失:“星展”目录”“模式”。DataNu……
2分钟的阅读时间三角洲湖写工作与java.lang.UnsupportedOperationException失败
问题三角洲湖写工作有时失败有以下例外:. lang。UnsupportedOperationException:方式com.databricks.backend.daemon.data.client.DBFSV1。putIfAbsent(路径:路径、内容:InputStream)。DBFS v1不支持事务从多个集群写道。请升级到DBFS v2。或者你可以禁用多集群写道……
0分钟的阅读时间阅读大型DBFS-mounted文件使用Python api
本文解释了如何解决一个错误发生在你读大DBFS-mounted文件使用本地Python api。问题如果你挂载一个文件夹dbfs: / /和读取一个文件大于2 gb在Python API和熊猫一样,您将看到以下错误:/砖/ Python /地方/ lib / python2.7 /网站/熊猫/解析器。所以在pandas.parser.TextRead……
0分钟的阅读时间在覆盖模式下创建表失败时中断
问题当你尝试重新运行Apache火花写操作被取消当前运行工作,以下错误:错误:org.apache.spark.sql。AnalysisException:无法创建管理表(“testdb”。testtable”)。相关的位置(“dbfs: / user /蜂巢/仓库/ testdb。db / metastore_cache_ testtable)已经存在。;因为……
0分钟的阅读时间如何启动一个结构化流查询从去年写抵消吗
场景中你有一个流,运行窗口的聚合查询,读来自Apache卡夫卡和写文件追加模式。你想升级的应用程序并重新启动查询抵消等于最后写抵消。你想丢弃所有状态信息还没有被写入水槽,从最早开始处理…
1分钟的阅读时间无效的错误与气流运行作业时访问令牌
运行计划时气流砖的工作问题,你得到这个错误:无效的访问令牌:403年禁止运行错误原因通过气流或安排砖工作,您需要配置使用气流web UI砖的连接。下列不正确的设置会导致错误:设置主机字段数据砖我们…
0分钟的阅读时间拒绝访问当编写一个使用抽样S3 bucket
问题写一个S3 bucket使用抽样失败。司机节点可以写,但工人(执行者)节点返回一个拒绝访问错误。写作与DataFrame API,但是效果很好。例如,假设你运行以下代码:% scala . io .进口java文件导入。进口org.apache.spark可序列化的。{SparkConf, SparkContext}小鬼……
1分钟的阅读时间如何使用Apache火花指标吗
本文给出一个示例如何监视Apache使用火花引发组件可配置的指标体系。具体地说,它显示了如何设置一个新的源和使一个水槽。火花的详细信息组件可用于度量收集,包括水槽开箱即用的支持,遵循上面的文档链接。正……
0分钟的阅读时间得到文件的路径被自动加载程序
当你处理流媒体文件自动加载程序(AWS | Azure | GCP),事件记录基于底层存储中创建的文件。本文向您展示如何添加每个文件名的文件路径的新列DataFrame输出。一个用例是审计。当文件被吸收到分区的文件夹结构我…
0分钟的阅读时间δ缓存集群行为的自动定量多少
这篇文章是关于三角洲缓存(AWS | Azure | GCP)伸缩集群行为,根据需要添加或删除的节点。当一个集群缩减规模和终止节点:三角洲缓存行为以同样的方式作为一个抽样缓存。当一个节点出现故障,所有缓存数据的特定节点。三角洲缓存数据不是搬fr…
0分钟的阅读时间如何创建表ddl导入外部metastore吗
砖支持使用外部metastores而不是默认的蜂巢metastore。您可以导出所有表元数据从外部metastore蜂巢。使用Apache目录火花API列表中包含的数据库中的表metastore。使用显示创建TABLE语句生成ddl并将它们存储在一个文件中。使用文件……
0分钟的阅读时间当安装或访问Azure Blob存储失败
问题当你试图访问一个已经创建挂载点或创建一个新的挂载点,它失败的错误:. lang WASB:失败。NullPointerException造成这个错误可以发生在根山路径(/ mnt /等)也安装blob存储。运行以下命令检查如果根路径也安装:% python dbutils.f…
0分钟的阅读时间删除你流查询检查点和重启
问题你的工作失败<价值>δ表不存在。请删除你的流媒体查询检查点和重启。错误消息。导致两种不同的流媒体资源配置使用相同的检查点目录。这是不受支持的。例如,假设流查询流数据从三角洲表,并使用导演……
0分钟的阅读时间简化链接转换
有时你可能需要执行多个转换DataFrame: % scala org.apache.spark.sql.functions进口。_进口org.apache.spark.sql。DataFrame val testDf = (1 - 10) .toDF (col) def func0 (Int x: = > Int y: Int) (: DataFrame): DataFrame = {。过滤器(' > x (y))} def func1上校(x: Int) (: DataFrame): DataFrame = {in.sele……
1分钟的阅读时间当加入两个DataFrames防止复制列
如果你执行加入火花和不正确地指定您加入你会得到重复的列名。这使它更难选择列。本文和笔记本演示如何执行一个连接,这样你就不会有重复的列。加入如果你加入列列上,得到复制列。Scala % Scala val llist……
0分钟的阅读时间如何检查如果火花属性修改的笔记本吗
您可以调整应用程序通过设置不同的配置问题。某些配置必须设置集群级别,而一些设置在笔记本或应用程序。解决方案,以检查是否一个特定的火花配置可以设置在一个笔记本,笔记本电池运行以下命令:% scala spark.conf.isModifiable (“spark.databrick…
0分钟的阅读时间如何提高性能的三角洲湖并入查询使用分区修剪
这篇文章解释了如何触发分区修剪在三角洲湖并入(GCP) AWS | Azure |查询从砖。分区修剪是一种优化技术来限制分区的数量所检查的一个查询。讨论合并成可以计算昂贵的如果处理效率低下。你应该分区底层…
3分钟的阅读时间分配一个公共IP VNet-injected工作区使用Azure防火墙
您可以使用一个Azure防火墙创建VNet-injected工作区中所有集群有一个单一的IP出站地址。单一的IP地址可以作为一个额外的安全层与其他Azure服务和应用程序允许访问基于特定的IP地址。1。建立一个Azure砖工作区在自己的虚拟网络……
1分钟的阅读时间在附加操作不支持
问题要追加数据到一个文件保存在外部存储挂载点,并得到一个错误信息:OSError: [Errno 95]操作不受支持的。试图添加一个文件时发生错误从Python和r造成不支持直接附加和随机写熔丝v2,可用在砖矮子…
0分钟的阅读时间Apache火花JDBC数据源查询选项并不为Oracle数据库工作
问题当你使用Apache火花JDBC数据源的查询选择连接Oracle数据库,它失败与错误:java.sql。SQLSyntaxErrorException: ora - 00911:无效的字符为例,如果你运行下面的JDBC连接:% scala val df =火花。读.format (jdbc) .option (“url”,“< url >”) .option (…
0分钟的阅读时间增加每阶段的任务
当使用spark-xml包,您可以增加任务的数量每阶段spark.hadoop.mapred.max.split通过更改配置设置。集群中的大小到一个较低的值的火花配置(AWS | Azure)。这个配置设置控制输入块大小。当数据从DBFS读取,它分为输入模块,然后……
0分钟的阅读时间附加到一个DataFrame
附加到一个DataFrame,使用欧盟方法。% scala val firstDF = spark.range (3) .toDF (“myCol”) val启动= Seq (20) val附加= firstDF.union (newRow.toDF())显示(附加)% python firstDF = spark.range (3) .toDF (“myCol”)启动= spark.createDataFrame([[20]])附加= firstDF.union(启动)显示(附加)…
0分钟的阅读时间Apache火花工作失败maxResultSize例外
maxResultSize异常问题引发工作失败:org.apache.spark。SparkException:工作阶段失败而终止:XXXX任务的序列化结果的总大小(X.0 GB)比spark.driver大。maxResultSize (X.0 GB)导致这个错误是因为配置的大小限制是超过。大小限制适用于总连载……
0分钟的阅读时间不能卸载从UI库
问题通常,图书馆可以卸载集群UI。如果禁用复选框选择库,那么就无法卸载从UI库。因为如果你使用REST API创建一个库1.2版本,如果启用了auto-attach,图书馆所有集群上安装。在这个场景中,集群UI复选框……
0分钟的阅读时间ADLS和WASB写道
问题当访问数据存储在Azure上数据存储(ADLS) Windows Azure存储斑点湖(WASB)请求超时。您可能会看到一条错误消息,指出存储访问速度过高。文件和文件夹被创建速度过高引起Azure存储订阅有限制多少文件和folde……
0分钟的阅读时间最佳实践管理三角洲湖表
无论你如何删除管理表,它可以花大量的时间,这取决于数据大小。三角洲湖管理表中特定的元数据包含许多事务日志的形式,和它们可以包含重复数据文件。如果一个增量表已经使用了很长时间,这可以积累大量的数据…
0分钟的阅读时间监控运行作业工作运行指示板
工作运行指示板是一个笔记本显示所有正在运行的工作信息在你的工作区。配置仪表板,您必须允许把一个笔记本一个通用集群在工作区中您希望监视。如果不存在一个通用的集群,您必须创建一个许可。一旦d…
1分钟的阅读时间在Python中c++代码运行
从Python示例运行c++笔记本复习的c++运行Python笔记本学习如何编译c++代码和运行在集群....
0分钟的阅读时间Apache火花不开始工作
问题无火花工作开始,司机日志包含以下错误:初始工作没有接受任何资源;检查集群的UI,以确保工人注册和有足够的资源导致这个错误可以发生在执行程序内存和火花的遗嘱执行人核显式地设置配置选项卡。这是一个桑普……
1分钟的阅读时间故障排除JDBC、ODBC连接
DBR版本:<列出所有适用的DBR版本>云版本:AWS, Azure, GCP作者:<砖的电子邮件的作者>拥有团队:<地区+平台/火花>票务URL: <链接到原始Salesforce或Jira票>最后审核日期:2021年5月05,本文提供了信息,以帮助您排除之间的联系……bob体育客户端下载
2分钟的阅读时间安装和编译Cython
本文解释了如何运行火花代码编译Cython代码。的步骤如下:创建一个示例Cython DBFS (AWS | Azure)模块。将文件添加到火花会话。创建一个包装器方法来加载模块的执行人。样本数据集的映射器运行。产生更大的数据集,比较性能与nat…
2分钟的阅读时间从metastore下降与损坏的元数据表
问题有时你不能删除一个表的数据砖UI。使用% sql或火花。sql drop table不起作用。使元数据(表模式)存储在metastore损坏。运行Drop table命令时,火花检查表是否存在或不删除表之前。从表的元数据损坏火花c…
0分钟的阅读时间如何提取特征信息基于树的Apache SparkML管道模型
当你安装一个基于树模型,如决策树,随机森林,或梯度提高了树,是很有帮助的,可以复习功能重要性水平随着功能的名字。通常模型在SparkML符合管道的最后阶段。从管道中提取相关特征信息树莫…
0分钟的阅读时间更改版本的R (r-base)
这些指令描述如何安装一个不同版本的R (r-base)集群。您可以检查默认r-base版本,每个砖运行时版本安装在每个砖运行时版本的系统环境部分注意(AWS | Azure | GCP)。列表可用r-base-core版本r-base-co的版本……
1分钟的阅读时间Null列值显示为南
你的表有问题在一些列null值。当你查询的表在砖使用select语句,null值显示为null。当你查询的表使用相同的砖的SQL select语句,null值表现为南。%的sql select * from违约。<表名称>,<列名>是零Databric……
0分钟的阅读时间权力BI代理和SSL配置
驱动程序配置使用microsoft.sparkodbc可以设置驱动程序配置。ini文件,可以发现在ODBC驱动程序\辛巴火花ODBC驱动程序目录。microsoft.sparkodbc的绝对路径。ini目录取决于您使用的是电力BI桌面或本地电力BI网关:权力BI桌面:C:\Program Files\Micro...
2分钟的阅读时间Apache火花执行人内存分配
默认情况下,可用内存的数量为每个执行者Java虚拟机(JVM)中的分配内存堆。这是由spark.executor控制。记忆的财产。然而,一些意想不到的行为观察实例分配大量的内存。jvm内存大小,规模问题与垃圾collecto…
0分钟的阅读时间嵌套夷为平地DataFrame转换为JSON
本文解释了如何将一个扁平的DataFrame嵌套结构,通过嵌套类在另一个案件类。您可以使用这种技术来构建一个JSON文件,然后可以发送到外部API。我们首先定义嵌套模式DataFrame夷为平地。使用这个例子DataFrame,我们定义一个自定义的嵌套模式usi……
0分钟的阅读时间由于图书馆集群取消Python命令执行冲突
问题在Python笔记本集群返回取消。笔记本电脑在所有其他语言相同的集群上执行成功。原因当你安装一个冲突版本的库,比如ipython, ipywidgets, numpy, scipy,或者熊猫到PYTHONPATH, Python REPL可以打破,使所有命令返回取消后30秒……
1分钟的阅读时间Apache火花工作挂由于不确定的自定义UDF
问题有时Apache火花岗位挂无限期的不确定性行为引发用户定义函数(UDF)。下面是这个函数的一个例子:% scala val convertorUDF = (commentCol: String) = > {# UDF定义}val translateColumn = UDF (convertorUDF)如果你调用这个UDF使用withColumn ()…
0分钟的阅读时间错误当访问MLflow工件不使用MLflow客户机
MLflow实验权限(AWS | Azure)正在执行工件MLflow跟踪,使您能够轻松地控制访问您的数据,模型,和其他文件。无效的山异常问题当试图访问一个MLflow运行工件使用砖文件系统(DBFS)命令,比如dbutils。fs,得到以下错误:com ....
0分钟的阅读时间表创建失败与安全例外
问题您试图使用一个集群创建一个表,表启用了acl,但出现以下错误:错误的SQL语句:SecurityException:允许用户没有选择任何文件。造成这个错误发生在一个表ACL-enabled集群如果你不是管理员,您没有足够的权限来创建一个助教……
1分钟的阅读时间如何发送电子邮件或短信从砖笔记本
你可能需要发送一个通知从砖一组接收者笔记本。例如,您可能想要发送电子邮件匹配基于业务规则或基于命令的成功或失败。本文描述了两种方法来发送电子邮件或短信从一个笔记本。这两个示例使用Python笔记本:发送电子邮件或短信重新…
1分钟的阅读时间与AttributeError Python命令执行失败
这篇文章可以帮助您解决场景AttributeError Python命令执行失败。问题:“元组对象没有属性“类型”当您运行一个笔记本,Python命令执行失败,并显示以下错误和堆栈跟踪:AttributeError: tuple的对象没有属性“类型”回溯(最近的电话最后):文件“/…
3分钟的阅读时间不支持Apache DStream火花
问题你正试图用一个火花离散流(DStream)砖流的工作,但是工作是失败的。导致DStreams由砖和DStream API不支持。解决方案而不是使用火花DStream,你应该迁移到结构化流。检查生产的砖结构的流(AWS | Azure |…
0分钟的阅读时间安装一个Apache SparkML模型抛出错误
问题砖时抛出一个错误的配件SparkML模型或管道:org.apache.spark。SparkException:工作阶段失败而终止:任务0阶段162.0失败了4次,最近的失败:在舞台上失去了任务0.3 162.0 (TID 168、10.205.250.130执行人1):org.apache.spark。SparkException:未能执行用户定义函数($ anonfu……
0分钟的阅读时间如何发现删除工作区在Azure门户
如果工作区已经消失或被删除,您可以识别用户删除它通过检查的活动日志Azure门户。Azure门户的活动日志。扩大时间关注在工作区中删除。过滤日志记录的具体事件。单击事件显示的信息…
0分钟的阅读时间如何并行化和spark.lapply R代码吗
并行R的代码是很困难的,因为代码运行在司机和R data.frames没有分布。通常,有现有的R是本地运行的代码转换为运行在Apache火花。在其他情况下,一些SparkR函数用于先进的统计分析和机器学习技术可能不支持分布式com……
0分钟的阅读时间禁用当查询计划BroadcastNestedLoopJoin播出
这篇文章解释了如何禁用广播当查询计划BroadcastNestedLoopJoin物理计划。你禁用后预计播放停止广播阈值,通过设置spark.sql。autoBroadcastJoinThreshold 1,但是Apache火花试图与广播广播大表和失败错误。这种行为是……
1分钟的阅读时间不能挂载Azure存储Gen1湖帐户数据
问题当你试图安装一个湖Azure数据存储(ADLS) Gen1帐户砖,它失败的错误:com.microsoft.azure.datalake.store。ADLException:创建目录/错误错误获取访问令牌io操作零失败的异常。IOException:服务器返回的HTTP响应代码:401的URL: https://login.windows...。
0分钟的阅读时间日本在外部metastore字符支持
问题你想在你的表中使用日文字符,但越来越错误。创建一个表的选项关键字选项提供了额外的元数据表。你试着创建表选项和utf8mb4指定字符集。% sql创建表默认。JPN_COLUMN_NAMES(“作成年月”字符串,“計上年月”字符串,“所属コード”字符串,“生保代理店コード_8……
1分钟的阅读时间解决方案或命名空间加载错误
本文解释如何解决一个包或命名空间加载错误。问题当你安装和加载一些图书馆在笔记本电池,如:% r图书馆(BreakoutDetection)你可能得到一个包或命名空间的错误:加载所需的包:BreakoutDetection:错误:包或名称空间加载失败“BreakoutDetection”loadNamespace(我,…
0分钟的阅读时间常见的错误使用Azure数据工厂
Azure数据工厂是一个托管服务,允许您使用Azure作者数据管道砖笔记本,罐子和Python脚本。本文介绍了常见问题和解决方案。不能创建集群,当你创建一个数据管道在Azure数据工厂使用Azure Databricks-related活动如笔记本活动,你ca……
2分钟的阅读时间列出所有工作区对象
您可以使用砖工作区API (AWS | Azure | GCP)递归地列出所有工作区对象在给定的路径。常见用例包括:索引所有笔记本的工作区中所有用户的名称和类型。使用输出,结合其他API调用,删除未使用的工作区或管理笔记本。动态地得到t…
1分钟的阅读时间如何填充或更新现有的三角洲表中列
现有的差值表的问题,有一些空的列。你需要用数据填充或更新这些列原始文件拼花。解决方案在这个例子中,有一个客户表,这是一个现有的差值表。它有一个地址列用缺失值。更新后的数据存在于铺格式。创建一个从th DataFrame…
0分钟的阅读时间如何探索Apache火花引发听众指标
Apache火花提供了一些有用的内部听众跟踪指标任务和工作。在开发周期中,例如,这些指标可以帮助你理解何时和为什么需要很长时间才能完成的任务。当然,你可以利用火花或历史UI中看到的信息为每个任务和阶段,但也有一些道……
2分钟的阅读时间卡夫卡的错误:没有引导url解析
问题你想读或写数据到卡夫卡流,当你得到一个错误消息。kafkashaded.org.apache.kafka.common.KafkaException:未能构建卡夫卡消费造成的:kafkashaded.org.apache.kafka.common.config.ConfigException:没有可解析引导url在引导。服务器,如果您正在运行一个笔记本,错误我……
0分钟的阅读时间如何发现删除集群在Azure门户
如果一个集群在工作区中已经消失或被删除,您可以确定哪些用户删除它通过运行一个查询日志分析工作区在Azure门户服务。注意如果你没有一个分析工作区设置,您必须配置诊断在Azure砖继续之前的日志。加载日志分析工作区……
0分钟的阅读时间故障检测在JSON编码
问题引发工作不包含消息的一个例外:无效的utf - 32字符0 x1414141 char # 1(以上10飞行符),在org.apache.spark.sql.catalyst.json.JacksonParser字节# 7)。解析导致JSON数据源读者能够自动检测输入使用BOM JSON文件的编码文件的开始。然而,BOM并不是……
0分钟的阅读时间如何在砖和删除文件列表更快
场景假设您需要删除一个表分区的年,月,日,区域,和服务。然而,桌子上是巨大的,每个分区将会有大约1000的部分文件。你能列出在每个分区的所有文件,然后删除它们使用Apache火花工作。例如,假设您有一个表分区的,b,…
3分钟的阅读时间Cluster-named和集群级init脚本迁移笔记本
2023年9月1日,砖将禁用所有工作区cluster-named init脚本。这种类型的init脚本之前弃用,不会使用后9月1日,2023年。Cluster-named init脚本取而代之的是2018年8月集群级init脚本。集群级init脚本存储为工作区文件继续支持。哒……
2分钟的阅读时间验证集群的Log4j版本
砖最近发表的博客在Log4j 2脆弱性(cve - 2021 - 44228)的研究和评估。砖不直接使用Log4j版本已知受此影响的脆弱性在砖平台在某种程度上我们理解可能是脆弱的。bob体育客户端下载如果您正在使用Log4j集群内(例如,如果您正在处理…
2分钟的阅读时间火花与司机工作失败是暂时不可用
问题在集群上运行笔记本或工作时,他们多次成功运行,但有时司机停止工作,将显示错误消息,如:司机暂时不可用。意外引发司机已经停止并重新启动。失去了连接到集群。笔记本可能是分离的。如果你检查c…
1分钟的阅读时间意想不到的集群终止
有时一个集群是意外终止,而不是由于手动终止或配置自动终止。一个集群可以终止的原因很多。一些终端是由砖和其他由云提供商。本文描述了终止的原因和补救措施。砖ini……
3分钟的阅读时间禁止当访问S3数据时发生错误
问题而试图访问S3数据中直接使用DBFS山或火花api,异常类似如下的命令失败:com.amazonaws.services.s3.model。AmazonS3Exception:禁止;请求ID: XXXXXXXXXXXXX,扩展请求ID: XXXXXXXXXXXXXXXXXXX,云提供商:AWS实例ID: XXXXXXXXXX(服务:Amazon S3;地位有限公司…
1分钟的阅读时间红移JDBC驱动程序的冲突问题
问题如果您附加多个红移JDBC驱动程序到一个集群,并使用红移连接器,笔记本REPL SQLDriverWrapper错误消息可能会挂起或崩溃。19/11/14 01:01:44错误SQLDriverWrapper:致命的非用户错误扔进ReplId-9d455-9b970-b2042 . lang。NoSuchFieldError: PG_SUBPROTOCOL_NAMES com.amazon.redshi……
0分钟的阅读时间