ython模块从Databricks重发

文章指导您从存储文件导入 Python模块和包数据键重写流入Delta Live表管道ython代码存储模块或包并输入管道笔记本中的ython代码更多管理数据bricks重写文件信息见Python模块和R模块.

注解

源码只能从数据bricks重写文件导入无法从工作空间文件导入源码 。

ython模块从回调导入DeltaLive表

下示例适配DeltaLive表教程数据集查询从回文导入为 Python模块运行此示例时使用下列步骤:

  1. 点击重创ython代码寄存图标寄存器侧栏并点击添加寄存器.

  2. 取消选择通过克隆git仓库创建 repo并输入回购名仓库名称举个例子dlt-quickstart-repo.

  3. 创建模块读源数据进表:按回波名旁的向下箭头选择创建 > 文件输入文件名,例如clickstream_raw_module.py.文件编辑器打开输入编辑窗口

    发自dlt应用导入*son路由="/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"defcreate_clickstream_raw_table高山市点火:台表def点击流用:返回高山市点火.读取.公元前高山市son路由))
  4. 创建模块创建新表,内含编译数据:选择创建 > 文件并输入文件名,例如clickstream_prepared_module.py.输入新编辑窗

    发自clickstream_raw_module导入*发自dlt应用导入读取发自pyspark.sql.functions导入*发自pyspark.sql.types导入*defcreate_clickstream_prepared_table高山市点火:create_clickstream_raw_table高山市点火)台表@exect高山市"valid_current_page_title",当前_page_标题非NULL)expect_or_fail高山市有效计数,点击计数 > 0)defclickstream_prepared:返回高山市读取高山市"clickstream_raw").带Column高山市点击计数,expr高山市CAST-n-NT).withColumnRenamed高山市代码标题,"current_page_title").withColumnRenamed高山市Prev_标题,"previous_page_title").选择高山市"current_page_title",点击计数,"previous_page_title"))
  5. 创建管道笔记本:去数据bricks登陆页并选择创建笔记本或点击新图标新建侧栏并选择记事本.上头创建笔记本对话框显示并点击回波名旁的向下箭头并选择可创建回波笔记本创建>笔记本.

  6. 创建笔记本对话框,给笔记本取名并选择ython语言默认语言下拉菜单你可以离开集群化设置为默认值

  7. 点击创建.

  8. 输入笔记本中的示例代码

    笔记本重写路径不同于 Python模块路径时,请输入笔记本第一个单元格中的下列代码:

    导入sys系统,ss系统sys系统.路径选择.附加件高山市ss系统.路径选择.Abspath应用高山市'
                     
                      '
                     )导入dlt应用发自clickstream_prepared_module导入*发自pyspark.sql.functions导入*发自pyspark.sql.types导入*create_clickstream_prepared_table高山市点火)校对:Portnoy.表格显示高山市注释=上页表连接Apachespark页面)deftop_spark_referrers:返回高山市dlt应用.读取高山市"clickstream_prepared").滤波高山市expr高山市流页标题 = 'ache_spark').withColumnRenamed高山市"previous_page_title",变频器).排序方式高山市德克族高山市点击计数).选择高山市变频器,点击计数).限值高山市10))

    替换 路径重写包含ython模块导入

    编程笔记本与模块导入相同时,无需具体说明反编程sys.path.附录.输入笔记本第一组代码如下:

    导入sys系统,ss系统导入dlt应用发自clickstream_prepared_module导入*发自pyspark.sql.functions导入*发自pyspark.sql.types导入*create_clickstream_prepared_table高山市点火)校对:Portnoy.表格显示高山市注释=上页表连接Apachespark页面)deftop_spark_referrers:返回高山市dlt应用.读取高山市"clickstream_prepared").滤波高山市expr高山市流页标题 = 'ache_spark').withColumnRenamed高山市"previous_page_title",变频器).排序方式高山市德克族高山市点击计数).选择高山市变频器,点击计数).限值高山市10))
  9. 创建管道使用新笔记本

  10. 运行管道管道细节页面点击启动.

ython代码大全导入下代码片段从DeltaLive表笔记本导入测试用法包自dlt包内存目录和笔记本上头dlt包目录包含文件测试_utils.pyiint.py测试_utils.py定义函数create_test_table():

导入dlt应用校对:Portnoy.表格显示defmy表:返回dlt应用.读取高山市.)##导入dlt_packages.test_utils原封测试用法测试用法.create_test_table高山市点火)