持久型ApachesparkCSV测量

持久sparkCSV测量水槽

写由亚当巴夫拉卡

2022年3月4日

spark可配置度量系统支持数个汇,包括CSV文件

文章中,我们将展示你如何配置数据bricks集群使用CSV槽并持续使用dBFS定位

创建 init脚本

所有配置都用init脚本完成

init脚本处理以下三件:

  1. 配置集群生成驱动器和工人CSV度量
  2. CSV矩阵写到本地临时文件夹
  3. CSV矩阵从局部临时文件夹上传到所选DBFS位置
删除

注解

CSV测量值本地保存后上传到DBFS位置,因为DBFS不是为大数随机写作设计

自定义样本代码并用笔记本运行以创建集群Init脚本

样本代码创建 init脚本

ythondbutils.fs.put
          
           /bin/bashmkdir/tmp/csvsudoshart-c
           
            databricks/spark/dbconf/log4j/mact-worker/destricts.pressions.sk.
            
             expressors/spark/conf/contics.presses.sm.spress.source.jvm源码d/dfs/
             
              ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++sdomkdir-p/dbfs/
              
               /${DB_CLUSTER_ID}/度-${MYIP}fdoif-ds/tm/csvsp-r/tm/csv/*/dbfs/
               
                db_CLUSTER_ID/decs-$MYIPFS5完成EOFchmoda+x/tm/asynccode.sh/tm/asynccode.sh
               
              
             
            
           
          

替换 带DBFS位置保存 init脚本

替换 带DBFS位置保存CSV度量

集群切入脚本

创建嵌入式脚本后,必须配置成集群集群广度 init脚本.

验证CSV度量正确写

重开集群并运行样本作业

检查DBFS配置CSV度量并验证正确写法


文章有帮助吗