砖
SQL演示
免费开始
Databricks SQL是Lakehouse上的无服务器数据仓库,提供比其他云数据仓库高12倍的价格/性能。
视频记录
Databricks SQL演示概述
大家好,正如你所听说的,湖屋是最好的数据仓库,因为它结合了数据仓库的速度和数据湖的规模和灵活性。在这个演示中,我将向您展示数据团队如何使用Databricks SQL (Databricks Lakehouse平台上的无服务器数据仓库)为一家大型跨国公司分析收入趋势。bob体育客户端下载
点击展开文字记录→
首先,让我们寻找用于分析的收入数据。因为lakehouse可能包含成千上万的数据对象,比如表或视图,你可以使用Unity Catalog内置的搜索功能来跨表、查询和仪表板查找相关数据。您将只看到您有权访问的数据的结果,因为Unity Catalog管理湖屋。让我们按国家选择收入趋势,这会打开数据浏览器。
数据资源管理器显示您可以访问的所有目录、模式、表和视图。在数据资源管理器中,您将看到这个对象的结构,例如列名、数据类型和注释。您可以预览示例数据、可视化地检查对象内容或查看元数据信息——在这种情况下,您将看到视图定义。您可以向用户或组授予或限制访问权限,授权他们通过熟悉的SQL语法读取或修改此数据对象或管理访问控制。
最后,沿袭向您展示了数据如何在湖屋中上游或下游流动。在这里,您可以看到收入趋势是如何被其他表格、笔记本电脑、工作流或仪表板所衍生或消耗的。或者,高保真的沿袭图以图形方式显示数据流。您可以遍历此图并探索有助于分析的其他数据资产。例如,您可以考虑使用由订单派生的按优先级表的收入预测。
通常,您可能需要增加来自多个源的数据。要摄取数据到湖屋,Databricks SQL允许您添加来自各种本机集成源的数据,或将您的数据与您喜欢的工具(如Fivetran)连接。
让我们回到数据资源管理器。
了解了这个数据集的上下文之后,就可以创建查询或快速仪表板了。但是,让我们看看表洞察,看看是否有使用相同表的现有查询可以加速分析。
Databricks SQL提供了一个功能齐全的SQL编辑器,允许您编写、运行和调度查询。正如您所看到的,这是一个熟悉的ANSI SQL语句——从多个表中读取,并根据区域确定总收入的特定标准——您可以修改此查询以满足您的需求。该查询将在无服务器SQL仓库上执行,该仓库几秒钟就能上线,并针对高并发工作负载进行了优化,所需的管理最少,容量优化可降低总体成本。
当查询执行时,您可以使用查询概要来查看查询执行的详细信息,这可以通过详细说明每个任务的操作来帮助您排除查询执行期间的性能瓶颈。
当查询结果返回时,在同一个编辑器中,Databricks SQL使您能够创建可视化。对于这个查询,Databricks SQL会自动建议一个可视化类型,但是您可以选择使用开箱即用的图表类型进行自定义。
SQL是伟大的,但你可能需要额外的功能超出了SQL可表达的,随着Python udf的引入,你可以使用Python在Databricks SQL中定义自定义函数,这些函数可以被称为SQL语句和查询的一部分。例如,在预测数据集中屏蔽电子邮件等PII数据。
在另一种场景中,您的数据可能驻留在lakehouse之外的各种企业生产系统中。在这种情况下,您可以使用查询联合直接连接到多个数据源,您可以使用自动和智能下推技术配置到远程数据库的只读连接,以获得更好的性能—在本例中,我们将预测特定区域的未来收入。
最后,Databricks SQL支持物化视图,通过高效的增量计算加速最终用户查询并降低基础设施成本。在这里,我们将创建用于BI和分析的最新的、聚合的顺序优先级视图,而不必重新处理完整的底层表,而是只在发生更改的地方更新。
现在,许多组织都有各种BI工具,如Tableau或PowerBI。使用Databricks SQL,您可以无缝集成现有的BI工具。当我们切换到Tableau时,数据分析师可以通过与我们在演示中使用的Databricks无服务器SQL仓库即时访问lakehouse数据,以获得进一步可操作的见解,以推动收入增长。
总之,您已经看到了Databricks SQL(无服务器数据仓库)如何允许数据团队安全地在lakehouse平台上查找数据、编写和运行特别查询、创建丰富的开箱即用可视化以及连接到您最喜欢的BI工具(如Tableau)来分析大型跨国组织的收入趋势。bob体育客户端下载
谢谢你!
准备开始了吗?