2023年2月10日更新arjun.kaimaparambilrajan

重播Apache引发事件在一个集群中

火花UI是常用的作为火花的调试工具的工作。如果火花UI不可访问,你可以加载另一个集群的事件日志和使用事件日志重播笔记本重播引发事件。警告集群日志交付在默认情况下不启用。您必须启用集群日志开始您的集群前交货,否则……

1分钟的阅读时间
2022年3月15日更新arjun.kaimaparambilrajan

S3连接重置错误

问题您的Apache火花工作失败当试图S3操作。造成的错误消息:java.net.SocketException:连接重置出现在堆栈跟踪。堆栈跟踪例子从一个S3读操作:由:javax.net.ssl.SSLException:连接重置;请求ID: XXXXX,扩展请求ID: XXXXX,云提供商:AWS实例,我…

1分钟的阅读时间
更新5月16日,2022年由arjun.kaimaparambilrajan

在机器学习Python命令失败集群

问题您正在使用一个砖集群运行时对机器学习和Python的笔记本是失败的。你日志中发现一个无效的语法错误。SyntaxError:无效语法文件“/ local_disk0 / tmp / 1593092990800 - 0 / PythonShell。py”,第363行def __init__(自我,* args, condaMagicHandler = None, * * kwargs):导致/etc/environmen键值……

0分钟的阅读时间
更新5月16日,2022年由arjun.kaimaparambilrajan

PyPMML失败找不到py4j jar错误

PyPMML问题是一个Python PMML得分图书馆。在安装PyPMML在砖集群中,不能Py4JError:找不到py4j jar错误。%从pypmml python导入模型modelb = Model.fromFile (/ dbfs / shyam / DecisionTreeIris.pmml)错误:Py4JError:找不到py4j jar导致这个错误发生由于依赖defa……

1分钟的阅读时间
2022年5月19日更新arjun.kaimaparambilrajan

Python REPL未能在码头工人

问题当你使用一个码头工人的容器,包括预先构建的Python库,Python命令失败并不是创建虚拟环境。下面的错误消息是可见的在司机日志。20/02/29 16:38:35警告PythonDriverWrapper:未能开始repl replid - 5 - b591 - 0 - ce42 - 78 - ef3 - 7 . io .IOException:不能运行程序”/ local_disk0 /…

1分钟的阅读时间
2023年2月23日更新arjun.kaimaparambilrajan

工作失败与洗牌获取失败

问题你看到间歇使用洗牌取回Apache火花工作失败的工作。21/02/01 05:59:55警告TaskSetManager:在舞台上失去了任务0.0 4.0 (TID 4 10.79.1.45执行人0):FetchFailed (BlockManagerId(1 10.79.1.134 4048,没有一个),shuffleId = 1, mapId = 0, reduceId = 0 = org.apache.spark.shuffle消息。FetchFailedException: conne失败……

1分钟的阅读时间
2022年2月25日更新arjun.kaimaparambilrajan

AWS服务失败,没有地区提供错误

问题你的代码片段使用AWS服务失败. lang。IllegalArgumentException:没有在砖运行时7.0及以上的地区提供错误。相同的代码在砖6.6运行时,下面的工作。您可以验证这个问题通过运行示例代码片段在一个笔记本上。在砖运行时的7.0及以上,它将返回前女友……

0分钟的阅读时间
2022年5月19日更新arjun.kaimaparambilrajan

如何从Python脚本运行SQL查询

你可能想要访问你的表外的砖笔记本。除了通过JDBC连接BI工具(AWS | Azure),您还可以通过使用Python脚本访问表。你可以通过JDBC连接到一个火花集群使用PyHive然后运行一个脚本。你应该PyHive安装在机器上运行的Python脚本。信息Pytho……

1分钟的阅读时间
2022年3月4日更新arjun.kaimaparambilrajan

集群经济放缓由于Ganglia指标填充根分区

注意这篇文章适用于砖运行时7.3 LTS下面。问题集群开始放缓,可能显示的结合以下症状:不健康的集群事件报道:请求超时。司机暂时不可用。Metastore下降。DBFS下降。你看不到任何高GC事件或相关的内存利用率w……

1分钟的阅读时间
2022年5月19日更新arjun.kaimaparambilrajan

在Python中使用HDFS API来读取文件

有些时候你想直接读文件不使用第三方库。这可以用于阅读小文件当你定期存储blob和桶不能作为当地DBFS坐骑。AWS为S3 bucket存储使用以下示例代码。% python URI = = sc._gateway.jvm.org.apa sc._gateway.jvm.java.net.URI路径…

1分钟的阅读时间
2022年6月1日更新arjun.kaimaparambilrajan

GeoSpark未定义的函数与DBConnect错误

问题你想使用GeoSpark函数st_geofromwkt DBConnect (AWS | Azure | GCP)得到一个Apache引发错误消息。错误:org.apache.spark.sql。AnalysisException:未定义的功能:“st_geomfromwkt”。这个函数既不是注册临时函数也不是一个永久的函数注册数据库中的“默认”。T…

1分钟的阅读时间
2022年3月4日更新arjun.kaimaparambilrajan

设置Apache Hadoop核心位点。xml属性

你有一个场景,需要设置Apache Hadoop属性。你在核心位点通常会这样做。xml文件。在本文中,我们解释了如何设置核心位点。xml在一个集群中。创建核心位点。xml文件DBFS你需要创建一个核心位点。xml文件并将其保存到DBFS集群。一个简单的方法来创建这个文件是通过…

1分钟的阅读时间
2022年3月4日更新arjun.kaimaparambilrajan

在init脚本中启用重试

Init脚本通常用于配置数据砖集群。有些情况你可能想在一个init脚本实现重试。init脚本这个示例init脚本例子向您展示了如何实现一个基本的复制操作重试。您可以使用该示例代码为基础实现重试的init脚本。% scala…

0分钟的阅读时间
2023年2月27日更新,arjun.kaimaparambilrajan

如何导入一个定制的CA证书吗

使用Python时,您可能想要导入一个定制的CA证书,以避免端点连接错误。ConnectionError: HTTPSConnectionPool(主机= my_server_endpoint,端口= 443):马克斯重试超过url: /端点(NewConnectionError (“< urllib3.connection所致。VerifiedHTTPSConnection对象在0 x7fb73dc3b3d0 >: t失败…

1分钟的阅读时间
加载更多