本文我来讲讲 Superset 的简单使用,并使用 superset 制作一个简单的图表。
Apache Superset 介绍
Apache Superset 是一款现代化的开源大数据工具,也是企业级商业智能 Web 应用,用于数据探索分析和数据可视化。它提供了简单易用的无代码可视化构建器和声称是最先进的 SQL 编辑器,用户可以使用这些工具快速地构建数据仪表盘。
Superset 提供了源码、pypi、Docker 等多种安装方式,其文档称,Superset 目前在许多公司被大规模使用。例如,Superset 在 Airbnb 基于 Kubernetes 的生产环境中运行,为每天查看超过 10 万张图表的 600 多名活跃用户提供服务。
Apache Superset 将 SQL IDE、数据浏览工具、拖拽式仪表板编辑器和插件组合使用,以构建自定义的可视化效果,支持从许多关系数据库和非关系数据库中创建仪表板,这些数据库包括 SQLite、MySQL,以及 Amazon Redshift、Google BigQuery、Snowflake、Oracle 数据库、IBM DB2 和其他各种兼容的数据源,并且可以连接到 Apache Drill 和 Apache Druid。此外,Superset 还适用于云原生场景和 Docker。
安装
我采用官方提供的 helm chart 安装在 Kubernetes 上,安装过程中遇到了一些问题。这里就不过多讲述了,接下来进入本文的正题,如何使用 superset 制作一个简单的图表呢。
简单使用
连接数据源
我们打开 Superset 主界面,点击右上角 settings ,选择 连接数据库选项,进入数据库配置界面。点击右上角的添加数据库,选择相应的数据源,并填写相应的数据库连接配置,superset 内置几种常见的数据源,如果你想添加的数据源类型不再此列,可能需要安装相应的 python package 来解决。
在数据源连接的配置里还可以进行权限、安全性的配置。
数据源添加完成后,你就可以在界面内看到所添加的数据源了。
创建 Datasets
有了数据源后,我们需要创建一个 Dataset 来支持后续的图表创建。在主界面点击导航上的 SQL 下的 SQL Lab。
由于原始数据中数据可能会比较大,我们可能会对原有数据源的表进行裁剪,形成一个数据集。
我们通过 sql 语句查询出数据后,可以通过 save 按钮保存为数据集。
建立图表
有了数据集后,我们就可以来创建我们的第一张图表了。
我们来创建一个图表来展示每日 pv 的变化,我们选择刚才创建的数据集,我们选择时序折线图来展示,时间维度我们选择天,mertics 即我们要展示的指标,通过简单的配置,我们就完成了一个简单的每日 pv 变化的图表。
小结
本文简单的讲述了使用 Superset 从 0 至 1 创建一个图表的过程,由于才刚刚接触,还有许多地方还不熟悉,需要多多学习。
我的初步感受是,Superset 需要 sql 的基础知识,不太适合非技术人员使用。