|
|
我们可以通过使用一些额外的 GUI 驱动的 DB 节点来优化我们的 SQL 语句。特别是,我们添加了一个 数据库行过滤器 仅提取 [2013, 2017] 年份范围内的天数以及 DB GroupBy 节点来生成每天的行程计数。
提示:如果您对 SQL 查询感到怀旧,您可以打开每个 DB 节点的结果窗口(右键单击节点 -> 最后一项)并导航到“DB 查询”选项卡来检查到目前为止的 SQL 语句的样子。
最后,我们附加 DB Reader 节点以将数据本地导入工作流。
带有自定义查询的 DB 表选择器节点配置窗口。
数据块
工作流的底部处理存储在 Databricks 上的 土耳其 Whatsapp 数据 数据。
正在运行的 Databricks 集群存储 奥斯汀 天气 数据集。您可以从 Kaggle 下载 CSV 文件并将其上传到 Databricks 集群。
用于连接到 Databricks 实例的凭据和集群 ID
这 官方 JDBC 驱动程序 由 Databricks 提供并安装在我们的分析平台上(推荐)
我们的 Databricks 集成和 Apache Spark 扩展 可在 Hub 上获取
请注意,尽管 Databricks 是一项付费服务,但这部分实验是使用 Databricks 社区版,它是免费的,并提供了我们挑战所需的所有功能。
分析平台提供了开源 Apache Hive 驱动程序,您也可以使用它来连接到 Databricks。但是,我们建议使用 Databricks 提供的官方 JDBC 驱动程序。
连接到 Databricks
首先,让我们连接到 Databricks,添加 创建 Databricks 环境 节点添加到工作流中。 |
|