bamboolib

预览

这个特性是在公共预览

请注意

bamboolib在砖运行时支持11.1以上。

bamboolib是一个用户界面组件,允许从砖内没有代码数据分析和转换笔记本。bamboolib帮助用户更容易地处理数据和加速常见数据角力,探索和可视化的任务。当用户与他们的数据,完成这些任务bamboolib自动生成Python在后台代码。用户可以与他人分享这段代码,可以在自己的笔记本电脑运行这段代码快速繁殖的原始任务。他们还可以使用bamboolib延长这些原始任务额外的数据任务,而不需要知道如何所有代码。那些有经验的编码可以扩展这个代码来创建更复杂的结果。

在幕后,bamboolib用途ipywidgets,这是一个互动的HTML小部件框架IPython内核。ipywidgets内部运行IPython内核

需求

快速入门

  1. 创建一个Python笔记本。

  2. 附加满足的笔记本一个集群需求

  3. 在笔记本的第一位细胞,输入下面的代码,然后运行细胞。如果bamboolib是可以跳过这一步已经安装在工作区或集群

    %皮普安装bamboolib
  4. 在笔记本上第二单元,输入下面的代码,然后运行单元。

    进口bamboolib作为bam
  5. 在笔记本上第三单元,输入下面的代码,然后运行单元。

    bam

    请注意

    或者,您可以打印一个现有的大熊猫DataFrame显示与特定DataFrame bamboolib使用。

  6. 继续关键任务

走查

您可以使用bamboolib本身或与现有的大熊猫DataFrame

使用bamboolib本身

预排,你在笔记本使用bamboolib显示一个销售数据集的内容。然后你实验的一些相关笔记本bamboolib自动为您生成的代码。你完成销售数据的副本通过查询和排序设置的内容。

  1. 创建一个Python笔记本。

  2. 附加满足的笔记本一个集群需求

  3. 在笔记本的第一位细胞,输入下面的代码,然后运行细胞。如果bamboolib是可以跳过这一步已经安装在工作区或集群

    %皮普安装bamboolib
  4. 在笔记本上第二单元,输入下面的代码,然后运行单元。

    进口bamboolib作为bam
  5. 在笔记本上第三单元,输入下面的代码,然后运行单元。

    bam
  6. 点击虚拟数据加载

  7. 虚拟数据加载窗格中,为为测试bamboolib加载一个虚拟数据集中,选择销售数据集

  8. 点击执行

  9. 显示所有的行item_type婴儿食品:

    1. 搜索行为列表中,选择过滤器的行

    2. 过滤器的行窗格中,在选择上面的列表(在哪里),选择选择行

    3. 在下面的列表中在哪里中,选择item_type

    4. 选择旁边的列表item_type中,选择有价值的(s)

    5. 选择值(年代)盒子旁边有价值的(s)中,选择婴儿食品

    6. 点击执行

  10. 复制的Python代码自动生成查询:

    1. Cick复制代码以下数据预览。

  11. 粘贴和修改代码:

    1. 在笔记本上第四单元,将复制的代码粘贴。它应该是这样的:

      进口熊猫作为pddf=pdread_csv(bamsales_csv)#步骤:保持行item_type之一:婴儿食品df=df疯狂的(df(“item_type”]型号([“婴儿食品”)))
    2. 添加到这段代码只显示这些行order_prioC细胞,然后运行:

      进口熊猫作为pddf=pdread_csv(bamsales_csv)#步骤:保持行item_type之一:婴儿食品df=df疯狂的(df(“item_type”]型号([“婴儿食品”)))#添加以下代码。#步骤:保持行order_prio之一:Cdf=df疯狂的(df(“order_prio”]型号([“C”)))df

    提示

    而不是写这个代码,你也可以做同样的事情,只是用bamboolib第三单元只显示这些行order_prioC。这一步是延长bamboolib自动生成的代码的一个例子。

  12. 对行排序地区以升序排序:

    1. 在第四单元内的小部件搜索行为列表中,选择行排序

    2. 分类列(年代)窗格中,在选择列列表中,选择地区

    3. 在旁边的列表中地区中,选择提升(a - z)

    4. 点击执行

    请注意

    这相当于自己编写下面的代码:

    df=dfsort_values(通过=(“地区”),提升=(真正的])df

    你也可以使用bamboolib第三单元对行进行排序地区以升序排序。这一步演示了如何使用bamboolib扩展您编写的代码。使用bamboolib时,它会自动在后台为您生成额外的代码,这样你可以进一步扩展延伸了代码!

  13. 继续关键任务

用现有的DataFrame bamboolib

在这个介绍,您使用bamboolib显示在你的笔记本上的内容熊猫DataFrame。这个DataFrame包含一组示例销售数据的副本。然后你实验的一些相关笔记本bamboolib自动为您生成的代码。你完成通过查询和排序DataFrame的一些内容。

  1. 创建一个Python笔记本。

  2. 附加满足的笔记本一个集群需求

  3. 在笔记本的第一位细胞,输入下面的代码,然后运行细胞。如果bamboolib是可以跳过这一步已经安装在工作区或集群

    %皮普安装bamboolib
  4. 在笔记本上第二单元,输入下面的代码,然后运行单元。

    进口bamboolib作为bam
  5. 在笔记本上第三单元,输入下面的代码,然后运行单元。

    进口熊猫作为pddf=pdread_csv(bamsales_csv)df

    注意,bamboolib只支持熊猫DataFrames。将PySpark DataFrame熊猫DataFrame,电话toPandas在PySpark DataFrame。转换一个熊猫的API在火花DataFrame熊猫DataFrame,电话to_pandas在熊猫火花DataFrame API。

  6. 点击显示bamboolib UI

  7. 显示所有的行item_type婴儿食品:

    1. 搜索行为列表中,选择过滤器的行

    2. 过滤器的行窗格中,在选择上面的列表(在哪里),选择选择行

    3. 在下面的列表中在哪里中,选择item_type

    4. 选择旁边的列表item_type中,选择有价值的(s)

    5. 选择值(年代)盒子旁边有价值的(s)中,选择婴儿食品

    6. 点击执行

  8. 复制的Python代码自动生成查询。为此,单击复制代码以下数据预览。

  9. 粘贴和修改代码:

    1. 在笔记本上第四单元,将复制的代码粘贴。它应该是这样的:

      #步骤:保持行item_type之一:婴儿食品df=df疯狂的(df(“item_type”]型号([“婴儿食品”)))
    2. 添加到这段代码只显示这些行order_prioC细胞,然后运行:

      #步骤:保持行item_type之一:婴儿食品df=df疯狂的(df(“item_type”]型号([“婴儿食品”)))#添加以下代码。#步骤:保持行order_prio之一:Cdf=df疯狂的(df(“order_prio”]型号([“C”)))df

    提示

    而不是写这个代码,你也可以做同样的事情,只是用bamboolib第三单元只显示这些行order_prioC。这一步是延长bamboolib自动生成的代码的一个例子。

  10. 对行排序地区以升序排序:

    一。在第四单元内的小部件,点击行排序

    1. 分类列(年代)窗格中,在选择列列表中,选择地区

    2. 在旁边的列表中地区中,选择提升(a - z)

    3. 点击执行

    请注意

    这相当于自己编写下面的代码:

    df=dfsort_values(通过=(“地区”),提升=(真正的])df

    你也可以使用bamboolib第三单元对行进行排序地区以升序排序。这一步演示了如何使用bamboolib扩展您编写的代码。使用bamboolib时,它会自动在后台为您生成额外的代码,这样你可以进一步扩展延伸了代码!

  11. 继续关键任务

关键任务

将小部件添加到一个细胞

场景:你要bamboolib小部件显示在一个单元中。

  1. 确保笔记本满足需求bamboolib。

  2. 如果bamboolib不是已经安装在工作区或集群在笔记本上运行下面的代码在一个单元中,最好是在第一个单元格:

    %皮普安装bamboolib
  3. 在笔记本上运行下面的代码,最好是在笔记本的第一或第二单元:

    进口bamboolib作为bam
  4. 选项1:在你想让小部件出现的细胞,添加以下代码,然后运行该单元格:

    bam

    下面的小部件出现在细胞的代码。

    或者:

    选项2:在一个细胞包含一个引用熊猫DataFrame,打印DataFrame。例如,给出以下DataFrame定义,运行单元:

    进口熊猫作为pddatetime进口datetime,日期df=pdDataFrame({“一个”:(1,2,3),“b”:(2。,3所示。,4所示。),“c”:(“string1”,“string2相等”,“string3”),' d ':(日期(2000年,1,1),日期(2000年,2,1),日期(2000年,3,1)),“e”:(datetime(2000年,1,1,12,0),datetime(2000年,1,2,12,0),datetime(2000年,1,3,12,0)]})df

    下面的小部件出现在细胞的代码。

    注意,bamboolib只支持熊猫DataFrames。将PySpark DataFrame熊猫DataFrame,电话toPandas在PySpark DataFrame。转换一个熊猫的API在火花DataFrame熊猫DataFrame,电话to_pandas在熊猫火花DataFrame API。

清晰的小部件

场景:你想清楚的内容一个小部件,然后读取新的数据到现有的部件。

选项1:细胞内的运行下面的代码包含目标窗口小部件:

bam

小部件清理并重新显示砖:阅读从DBFS CSV文件,砖:加载数据库表,虚拟数据加载按钮。

请注意

如果错误的名字“砰”定义出现,在笔记本上运行下面的代码(最好是在笔记本上的第一个细胞),然后再试一次:

进口bamboolib作为bam

选项2:在一个细胞包含一个引用熊猫DataFrame再次,打印DataFrame再次通过运行单元。小部件清理,然后显示新的数据。

数据加载任务

一个示例数据集的内容解读小部件

场景:你想读一些示例数据到小部件,例如一些假装销售数据,以便您可以测试出小部件的功能。

  1. 点击虚拟数据加载

    请注意

    如果虚拟数据加载是不可见的,明确小部件选项1并再次尝试。

  2. 虚拟数据加载窗格中,为为测试bamboolib加载一个虚拟数据集选择数据集的名称,你想负载。

  3. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  4. 点击执行

    小部件显示数据集的内容。

提示

您可以切换当前小部件显示不同的内容示例数据集:

  1. 在当前的小部件,单击虚拟数据加载选项卡。

  2. 按照前面的步骤其他示例数据集的内容读入的小部件。

CSV文件的内容读入的小部件

场景:你想读一个CSV文件的内容在你的砖工作空间到小部件。

  1. 点击砖:阅读从DBFS CSV文件

    请注意

    如果砖:阅读从DBFS CSV文件是不可见的,明确小部件选项1并再次尝试。

  2. 读CSV DBFS窗格中,浏览到包含目标位置CSV文件。

  3. 选择目标CSV文件。

  4. Dataframe名字为编程,输入一个名称标识符作为一个CSV文件的内容DataFrame,或者离开df作为默认程序标识符。

  5. CSV值分隔符,输入之间的字符值在CSV文件中,或离开,作为默认值分隔符(逗号)字符。

  6. 十进制分隔符,输入字符分隔小数在CSV文件中,或离开(点)字符作为默认值分隔符。

  7. 行限制:阅读第N行——离开空没有限制,输入的最大行数读到小部件,或离开100000年作为默认的行数,或离开这个盒子空指定没有行限制。

  8. 点击打开CSV文件

    小部件显示CSV文件的内容,根据您指定的设置。

提示

您可以切换当前小部件显示不同的CSV文件的内容:

  1. 在当前的小部件,单击读CSV DBFS选项卡。

  2. 按照前面的步骤其他CSV文件的内容读入的小部件。

读数据库表的内容到小部件

场景:你想读数据库表的内容在你的砖工作空间到小部件。

  1. 点击砖:加载数据库表

    请注意

    如果砖:加载数据库表是不可见的,明确小部件选项1并再次尝试。

  2. 砖:加载数据库表窗格中,为默认数据库的数据库——离开空,输入目标表的数据库的名称,或离开这个盒子空指定默认的数据库。

  3. ,输入目标表的名称。

  4. 行限制:阅读第N行——离开空没有限制,输入的最大行数读到小部件,或离开100000年作为默认的行数,或离开这个盒子空指定没有行限制。

  5. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  6. 点击执行

    小部件显示表的内容,根据您指定的设置。

提示

您可以切换当前小部件显示不同的表的内容:

  1. 在当前的小部件,单击砖:加载数据库表选项卡。

  2. 按照前面的步骤其他表的内容读到小部件。

数据操作任务

bamboolib提供50岁以上的数据操作。以下是一些常见的数据开始行动的任务。

选择列

场景:你想只显示特定的表列的名字,相匹配的数据类型,或者一些正则表达式。例如,在假销售数据集你想只显示item_typesales_channel列,或者你想只显示的列包含字符串_date在他们的列名。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型选择,然后选择选择或删除列

    • 选择选择或删除列

  2. 选择或删除列窗格中,在选择下拉列表中,选择选择

  3. 选择目标列名或包含标准。

  4. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  5. 点击执行

删除列

场景:你想隐藏特定的表列的名字,相匹配的数据类型,或者一些正则表达式。例如,在假销售数据集,你想隐藏order_prio,order_date,ship_date列,或者你想隐藏所有列只包含日期时间值。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型下降,然后选择选择或删除列

    • 选择选择或删除列

  2. 选择或删除列窗格中,在选择下拉列表中,选择下降

  3. 选择目标列名或包含标准。

  4. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  5. 点击执行

过滤器的行

场景:你想要显示或隐藏特定的表行基于标准等特定列值匹配或失踪。例如,在假销售数据集,你想要只显示这些行item_type列的值设置婴儿食物

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型过滤器,然后选择过滤器的行

    • 选择过滤器的行

  2. 过滤器的行窗格中,在选择下拉列表上面在哪里中,选择选择行删除行

  3. 指定第一个过滤器标准。

  4. 添加另一个过滤条件,点击添加条件,并指定条件下一个过滤器。根据需要重复。

  5. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  6. 点击执行

行排序

场景:你想排序表行基于一个或多个列中的值。例如,在假销售数据集,你想要显示的行地区列的值从A到Z的字母顺序排列。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型排序,然后选择行排序

    • 选择行排序

  2. 分类列(年代)窗格中,选择第一列排序,排序顺序。

  3. 添加另一个标准,点击添加一列,并指定下一个标准。根据需要重复。

  4. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  5. 点击执行

行和列分组任务

组由一个聚合函数行和列

场景:你想要显示的行和列结果分组计算,和你想指定自定义分组名称。例如,在假销售数据集,你想要的行国家列的值,显示包含相同的行数国家价值,给计算项名称的列表country_count

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型集团,然后选择Group by和聚合(重命名)

    • 选择Group by和聚合(重命名)

  2. 集团通过与列重命名窗格中,选择列组,第一个计算,选择指定的名称计算列。

  3. 点击添加另一个计算添加计算,并指定下一个计算和列名。根据需要重复。

  4. 指定在哪里存储结果。

  5. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  6. 点击执行

组行和列的多个聚合函数

场景:你想要显示的行和列分组计算结果。例如,在假销售数据集,你想要的行地区,国家,sales_channel列的值,显示了包含相同数量的行地区国家价值sales_channel,以及total_revenue通过独特的组合地区,国家,sales_channel

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型集团,然后选择Group by和总(默认)

    • 选择Group by和总(默认)

  2. 集团通过与列重命名窗格中,选择列组,第一个计算。

  3. 点击添加另一个计算添加计算,并指定下一个计算。根据需要重复。

  4. 指定在哪里存储结果。

  5. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  6. 点击执行

删除与缺失值的行

场景:你想删除任何行,缺失值为指定的列。例如,在假销售数据集,你想删除任何行有一个失踪item_type价值。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型下降删除,然后选择缺失值下降

    • 选择缺失值下降

  2. 缺失值下降窗格中,选择列删除任何行有缺失值的列。

  3. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  4. 点击执行

删除重复的行

场景:你想删除任何行,复制指定列值。例如,在假销售数据集,你想删除任何行确切副本。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型下降删除,然后选择删除/删除重复的

    • 选择删除/删除重复的

  2. 删除重复的窗格中,选择要删除的列的任何行重复值的列,然后选择是否保持第一或最后一行有重复值。

  3. Dataframe名字为编程,输入一个名称标识符作为一个表的内容DataFrame,或者离开df作为默认程序标识符。

  4. 点击执行

查找和替换缺失值

场景:你想代替缺失值替换值的任何行指定的列。例如,在假销售数据集你想替换任何行,缺失值item_type列的值未知的类型

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型找到取代,然后选择查找和替换缺失值

    • 选择查找和替换缺失值

  2. 代替缺失值窗格中,选择来代替缺失值的列,然后指定替换值。

  3. 点击执行

创建一个列公式

场景:你想创建一个列,使用一个独特的公式。例如,在假销售数据集,你想创建一个列命名profit_per_unit显示划分的结果total_profit列值的units_sold列值为每一行。

  1. 数据选项卡,搜索行为下拉列表,做以下之一:

    • 类型公式,然后选择新列公式

    • 选择新列公式

  2. 代替缺失值窗格中,选择来代替缺失值的列,然后指定替换值。

  3. 点击执行

数据操作历史任务

视图中的行动列表小部件

场景:你想看到所有的更改的列表,在小部件,从最近的变化。

点击历史。行为出现在列表中转换的历史窗格。

撤销最近的行动的小部件

场景:你想恢复最近的变化在小部件。

做下列之一:

  • 单击逆时针方向箭头图标。

  • 点击历史,在转换的历史窗格中,单击撤消最后一步

重做最近的行动的小部件

场景:你想恢复最近的恢复是在小部件。

做下列之一:

  • 按顺时针方向箭头图标。

  • 点击历史,在转换的历史窗格中,单击恢复最后一步

在小部件改变最近的行动

场景:你想改变最近拍摄的小部件。

  1. 做下列之一:

    • 点击铅笔图标。

    • 点击历史,在转换的历史窗格中,单击编辑最后一步

  2. 进行所需的更改,然后单击执行

得到代码以编程方式创建小部件作为DataFrame的当前状态

场景:你想让Python代码编程的方式再现当前部件的状态,表示为熊猫DataFrame。你想要运行这段代码在不同的细胞在此工作簿或一个完全不同的工作簿。

  1. 点击获取代码

  2. 出口代码窗格中,单击复制代码。代码复制到系统剪贴板。

  3. 将代码粘贴到一个不同的细胞在此工作簿或不同的工作簿。

  4. 编写额外的代码来处理这个熊猫DataFrame编程方式,然后运行细胞。例如,显示DataFrame内容,假设你的DataFrame编程方式的代表df:

    #你贴代码,紧随其后的是……df

限制

  • 使用bamboolib争论仅限于大约1000万行数据。这个限制是基于熊猫和集群的计算资源。

  • 使用数据可视化bamboolib仅限于大约1万行。这个限制是基于情节。