本文我来讲讲 Superset 的简单使用,并使用 superset 制作一个简单的图表。
Apache Superset 介绍
Apache Superset 是一款现代化的开源大数据工具,也是企业级商业智能 Web 应用,用于数据探索分析和数据可视化。它提供了简单易用的无代码可视化构建器和声称是最先进的 SQL 编辑器,用户可以使用这些工具快速地构建数据仪表盘。
Superset 提供了源码、pypi、Docker 等多种安装方式,其文档称,Superset 目前在许多公司被大规模使用。例如,Superset 在 Airbnb 基于 Kubernetes 的生产环境中运行,为每天查看超过 10 万张图表的 600 多名活跃用户提供服务。
Apache Superset 将 SQL IDE、数据浏览工具、拖拽式仪表板编辑器和插件组合使用,以构建自定义的可视化效果,支持从许多关系数据库和非关系数据库中创建仪表板,这些数据库包括 SQLite、MySQL,以及 Amazon Redshift、Google BigQuery、Snowflake、Oracle 数据库、IBM DB2 和其他各种兼容的数据源,并且可以连接到 Apache Drill 和 Apache Druid。此外,Superset 还适用于云原生场景和 Docker。
安装
我采用官方提供的 helm chart 安装在 Kubernetes 上,安装过程中遇到了一些问题。这里就不过多讲述了,接下来进入本文的正题,如何使用 superset 制作一个简单的图表呢。
简单使用
连接数据源
我们打开 Superset 主界面,点击右上角 settings ,选择 连接数据库选项,进入数据库配置界面。点击右上角的添加数据库,选择相应的数据源,并填写相应的数据库连接配置,superset 内置几种常见的数据源,如果你想添加的数据源类型不再此列,可能需要安装相应的 python package 来解决。
在数据源连接的配置里还可以进行权限、安全性的配置。
数据源添加完成后,你就可以在界面内看到所添加的数据源了。
创建 Datasets
有了数据源后,我们需要创建一个 Dataset 来支持后续的图表创建。在主界面点击导航上的 SQL 下的 SQL Lab。
由于原始数据中数据可能会比较大,我们可能会对原有数据源的表进行裁剪,形成一个数据集。
我们通过 sql 语句查询出数据后,可以通过 save 按钮保存为数据集。
建立图表
有了数据集后,我们就可以来创建我们的第一张图表了。
我们来创建一个图表来展示每日 pv 的变化,我们选择刚才创建的数据集,我们选择时序折线图来展示,时间维度我们选择天,mertics即我们要展示的指标,通过简单的配置,我们就完成了一个简单的每日pv变化的图表。
小结
本文简单的讲述了使用 Superset 从0至1创建一个图表的过程,由于才刚刚接触,还有许多地方还不熟悉,需要多多学习。
我的初步感受是,Superset 需要 sql 的基础知识,不太适合非技术人员使用。