此部分需要的内容是

asimm3 · 發表於 2025-3-3 17:27:52

我们可以通过使用一些额外的 GUI 驱动的 DB 节点来优化我们的 SQL 语句。特别是，我们添加了一个数据库行过滤器仅提取 [2013, 2017] 年份范围内的天数以及 DB GroupBy 节点来生成每天的行程计数。

提示：如果您对 SQL 查询感到怀旧，您可以打开每个 DB 节点的结果窗口（右键单击节点 -> 最后一项）并导航到“DB 查询”选项卡来检查到目前为止的 SQL 语句的样子。

最后，我们附加 DB Reader 节点以将数据本地导入工作流。

带有自定义查询的 DB 表选择器节点配置窗口。
数据块
工作流的底部处理存储在 Databricks 上的土耳其 Whatsapp 数据数据。

正在运行的 Databricks 集群存储奥斯汀天气数据集。您可以从 Kaggle 下载 CSV 文件并将其上传到 Databricks 集群。
用于连接到 Databricks 实例的凭据和集群 ID
这官方 JDBC 驱动程序由 Databricks 提供并安装在我们的分析平台上（推荐）
我们的 Databricks 集成和 Apache Spark 扩展可在 Hub 上获取
请注意，尽管 Databricks 是一项付费服务，但这部分实验是使用 Databricks 社区版，它是免费的，并提供了我们挑战所需的所有功能。

分析平台提供了开源 Apache Hive 驱动程序，您也可以使用它来连接到 Databricks。但是，我们建议使用 Databricks 提供的官方 JDBC 驱动程序。

连接到 Databricks
首先，让我们连接到 Databricks，添加创建 Databricks 环境节点添加到工作流中。

此部分需要的内容是

瀏覽過的版塊