砖助理:样本的任务

预览

这个特性是在公共预览

砖助理的工作作为一个基于ai同伴pair-programmer让你更有效率的在创建笔记本时,查询和文件。它可以帮助你快速回答问题通过生成,优化,完成,解释和修复代码和查询。

对于一般的砖助理的信息,明白了砖助理的常见问题

提示您提供可以显著改变的输出助理。尝试添加一个以下的提示:

  • “没有说明文本”在生成代码。

  • “解释的代码我一步一步”。

  • “给我两个/三个选项,我可以试一试”。

  • “简洁”。

您还可以尝试以下类型的查询:

  • 写一个SQL UDF扭转一个字符串。

  • 添加日期过滤器,这个查询结果限制在过去的30天。

  • 帮我画一个图从一个SQL查询的结果。查询结果在熊猫DataFrame的格式。x轴应贴上“星期”和y轴应贴上“每周不同的用户”。

生成代码示例

分析数据

开始代码:

进口熊猫作为pd#读样本纽约出租车旅行数据集和负载DataFramedf=火花(“samples.nyctaxi.trips”)

助理提示:

生成熊猫代码将pyspark dataframe熊猫dataframe和选择十大最昂贵的旅行从基于fare_amount df列

创建一个DataFrame读者

开始代码:

视图中的数据例如数据集。

显示(dbutilsfsls(“dbfs: / databricks-datasets /例如/数据- 001 /”))

助理提示:

生成代码阅读。例如数据集的csv文件

改变或优化代码示例

翻译熊猫PySpark

开始代码:

进口熊猫作为pd#火花DataFrame转换为熊猫DataFramepdf=dftoPandas()#选择基于fare_amount列十大最昂贵的旅行most_expensive_trips=pdfnlargest(10,“fare_amount”)#显示结果most_expensive_trips

助理提示:

将这段代码转换成PySpark

生成更高效的代码

助理提示:

给我低效率的python代码的代码示例,解释为什么它是低效的,然后给我一个改进的版本更高效的代码。解释为什么它是更有效的,那么给我一个测试出来的字符串列表和代码基准尝试每一个。

助理提示:

给我写一个函数基准的执行代码在这个细胞,然后给我写这段代码的另一种方法是更有效的基准,并将表现得更好。

完整的代码示例

您可以使用LakeSense从评论在一个单元中生成代码。

  • 在macOS,按转变+选项+空间控制+选项+空间直接在一个单元中。

  • 在Windows上,按ctrl+转变+空间直接在一个单元中。

接受建议的代码,出版社选项卡

相反一个字符串

开始代码:

#编写代码来扭转一个字符串。

执行探索性数据分析

开始代码:

#葡萄酒数据集加载到sklearn DataFrame,桶分成3组的数据质量,然后想象情节中柱形图表。

解释代码示例

基本代码的解释

开始代码:

PySpark代码旅行的总数和传感器之间的票价金额之和跳伞邮政编码。

进口pyspark.sql.functions作为Ffare_by_route=dfgroupBy(“pickup_zip”,“dropoff_zip”)gg(F总和(“fare_amount”)别名(“total_fare”),F(“fare_amount”)别名(“num_trips”))排序(F上校(“num_trips”)desc())显示(fare_by_route)

助理提示:

解释这段代码所做的

快速查找文档

助理提示:

当我应该使用重新分区()与合并()在Apache火花?

助理提示:

有什么区别的各种pandas_udf函数(在PySpark火花/考拉和熊猫),当我应该选择?你能告诉我一个例子,每个数据集与钻石?

修复代码示例

调试

开始代码:

这是相同的代码中使用基本代码例子解释,但是丢失的import语句。它抛出错误”这抛出错误:NameError:名字‘F’没有定义”。

fare_by_route=dfgroupBy(“pickup_zip”,“dropoff_zip”)gg(F总和(“fare_amount”)别名(“total_fare”),F(“fare_amount”)别名(“num_trips”))排序(F上校(“num_trips”)desc())显示(fare_by_route)

助理提示:

我如何修复这个错误?“F”是什么?

帮助与错误

开始代码:

这段代码抛出错误“AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION]”。

pyspark.sql.functions进口上校#创建一个包含两个列的dataframe: a和bdf=火花范围(5)选择(上校(“id”)别名(“一个”),上校(“id”)别名(“b”))#试图选择一个不存在的列cdf选择(上校(“c”))显示()

助理提示:

为什么我得到这个错误和如何修复它?