砖助理:样本的任务

预览

这个特性是在公共预览。

砖助理的工作作为一个基于ai同伴pair-programmer让你更有效率的在创建笔记本时,查询和文件。它可以帮助你快速回答问题通过生成,优化,完成,解释和修复代码和查询。

对于一般的砖助理的信息,明白了砖助理的常见问题。

提示您提供可以显著改变的输出助理。尝试添加一个以下的提示:

“没有说明文本”在生成代码。
“解释的代码我一步一步”。
“给我两个/三个选项,我可以试一试”。
“简洁”。

您还可以尝试以下类型的查询:

写一个SQL UDF扭转一个字符串。
添加日期过滤器,这个查询结果限制在过去的30天。
帮我画一个图从一个SQL查询的结果。查询结果在熊猫DataFrame的格式。x轴应贴上“星期”和y轴应贴上“每周不同的用户”。

生成代码示例

分析数据

开始代码:

              进口熊猫作为pd#读样本纽约出租车旅行数据集和负载DataFramedf=火花。读。表(“samples.nyctaxi.trips”)
             

助理提示:

              生成熊猫代码将pyspark dataframe熊猫dataframe和选择十大最昂贵的旅行从基于fare_amount df列
             

创建一个DataFrame读者

开始代码:

视图中的数据例如数据集。

              显示(dbutils。fs。ls(“dbfs: / databricks-datasets /例如/数据- 001 /”))
             

助理提示:

生成代码阅读。例如数据集的csv文件

改变或优化代码示例

翻译熊猫PySpark

开始代码:

              进口熊猫作为pd#火花DataFrame转换为熊猫DataFramepdf=df。toPandas()#选择基于fare_amount列十大最昂贵的旅行most_expensive_trips=pdf。nlargest(10,“fare_amount”)#显示结果most_expensive_trips
             

助理提示:

将这段代码转换成PySpark

生成更高效的代码

助理提示:

              给我低效率的python代码的代码示例,解释为什么它是低效的,然后给我一个改进的版本更高效的代码。解释为什么它是更有效的,那么给我一个测试出来的字符串列表和代码基准尝试每一个。
             

助理提示:

              给我写一个函数基准的执行代码在这个细胞,然后给我写这段代码的另一种方法是更有效的基准,并将表现得更好。
             

完整的代码示例

您可以使用LakeSense从评论在一个单元中生成代码。

在macOS,按转变+选项+空间或控制+选项+空间直接在一个单元中。
在Windows上,按ctrl+转变+空间直接在一个单元中。

接受建议的代码,出版社选项卡。

相反一个字符串

开始代码:

#编写代码来扭转一个字符串。

执行探索性数据分析

开始代码:

              #葡萄酒数据集加载到sklearn DataFrame,桶分成3组的数据质量,然后想象情节中柱形图表。
             

解释代码示例

基本代码的解释

开始代码:

PySpark代码旅行的总数和传感器之间的票价金额之和跳伞邮政编码。

              进口pyspark.sql.functions作为Ffare_by_route=df。groupBy(“pickup_zip”,“dropoff_zip”)。gg(F。总和(“fare_amount”)。别名(“total_fare”),F。数(“fare_amount”)。别名(“num_trips”))。排序(F。上校(“num_trips”)。desc())显示(fare_by_route)
             

助理提示:

解释这段代码所做的

快速查找文档

助理提示:

当我应该使用重新分区()与合并()在Apache火花?

助理提示:

              有什么区别的各种pandas_udf函数(在PySpark火花/考拉和熊猫),当我应该选择?你能告诉我一个例子,每个数据集与钻石?
             

修复代码示例

调试

开始代码:

这是相同的代码中使用基本代码例子解释,但是丢失的import语句。它抛出错误”这抛出错误:NameError:名字‘F’没有定义”。

              fare_by_route=df。groupBy(“pickup_zip”,“dropoff_zip”)。gg(F。总和(“fare_amount”)。别名(“total_fare”),F。数(“fare_amount”)。别名(“num_trips”))。排序(F。上校(“num_trips”)。desc())显示(fare_by_route)
             

助理提示:

我如何修复这个错误?“F”是什么?

帮助与错误

开始代码:

这段代码抛出错误“AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION]”。

              从pyspark.sql.functions进口上校#创建一个包含两个列的dataframe: a和bdf=火花。范围(5)。选择(上校(“id”)。别名(“一个”),上校(“id”)。别名(“b”))#试图选择一个不存在的列cdf。选择(上校(“c”))。显示()
             

助理提示:

为什么我得到这个错误和如何修复它?