Подключение источников данных к Apache Superset
В современной аналитике часто приходится работать с данными из различных источников. Apache Superset предоставляет гибкие возможности для подключения и визуализации данных из электронных таблиц, CSV-файлов и баз данных. Каждый тип подключения имеет свои особенности, которые важно понимать для эффективной работы.
Подключение Google Sheets
Одним из удобных источников данных является Google Sheets, особенно когда требуется работать с динамически обновляемыми данными. При таком подключении Superset не хранит сами данные, а обращается к таблице по URL при каждом обновлении визуализации.
Процесс подключения Google Sheets включает несколько важных шагов:
- Настройка доступа к таблице:
- Создать или открыть Google Sheets документ
- Нажать кнопку "Настройки доступа"
- Выбрать "Доступ по ссылке"
- Установить права доступа (Просмотр/Комментирование/Редактирование)
- Подключение в Superset:
- Нажать "+" -> "Connect Google Sheets"
- Указать Display Name
- Выбрать тип доступа (только публичные таблицы)
- Вставить URL таблицы
- Нажать "Connect"
После подключения становятся доступны дополнительные возможности работы с данными через SQL Lab, где можно писать запросы к таблице как к обычной базе данных. Также можно создавать датасеты и визуализации на основе данных из Google Sheets.
Работа с CSV-файлами
CSV-файлы отличаются от Google Sheets тем, что при загрузке данные сохраняются в собственной базе данных Superset. Это означает, что последующие изменения в исходном файле не будут автоматически отражаться в визуализациях - потребуется повторная загрузка файла.
Процесс загрузки CSV:
- Выбрать "Data" -> "Upload CSV to Database"
- Указать имя таблицы (Table Name)
- Выбрать разделитель (Delimiter) - запятая, точка с запятой и др.
- Определить поведение при существовании таблицы (Fail/Replace/Append)
- Загрузить файл и подтвердить
Важной особенностью является то, что Superset автоматически определяет типы данных в колонках, что может быть полезно для дальнейшей работы с числовыми данными.
Подключение к PostgreSQL
Работа с базами данных представляет наиболее гибкий вариант подключения, поскольку позволяет работать с актуальными данными в реальном времени. Для подключения PostgreSQL необходимо:
- Перейти в "Settings" -> "Database Connections"
- Выбрать "Connect Database"
- Указать тип базы данных (PostgreSQL)
- Заполнить параметры подключения:
- Host
- Port
- Database name
- Username
- Password
- Настроить права доступа к операциям с базой данных
После подключения становятся доступны все таблицы и схемы базы данных, к которым можно обращаться через SQL Lab или создавать датасеты для визуализаций.
Особенности работы с различными источниками
Важно понимать ключевые различия между источниками данных:
- Google Sheets обеспечивает динамическое обновление данных при изменении исходной таблицы
- CSV и Excel файлы хранятся в базе Superset и требуют ручного обновления при изменении исходных данных
- Подключение к базам данных позволяет работать с актуальными данными и обновлять их одним нажатием кнопки Refresh
Веб-версия Superset имеет некоторые ограничения по сравнению с десктопной версией, например, отсутствие прямой поддержки Excel-файлов и ограниченный список поддерживаемых СУБД. Однако даже в веб-версии доступен весь основной функционал для создания эффективных визуализаций данных.
Самостоятельная работа
В этих заданиях мы попрактикуемся и в получении данных из различных источников.
Задание № 1
Скопируйте к себе эту таблицу и загрузите ее в Preset.
Нажмите сюда чтобы увидеть подсказку
- Нажмите кнопку со знаком
+
в верхней правой части интерфейса - В выпадающем списке выберите Data -> Connect Google Sheet
- В поле GOOGLE SHEET NAME AND URL введите название таблицы и ссылку на нее
Задание № 2
Сохраните локально csv-файл, доступный по ссылке. После этого загрузите данный файл в Preset.
Нажмите сюда, чтобы увидеть подсказку
- Нажмите кнопку со знаком
+
в верхней правой части интерфейса - В выпадающем списке выберите Data -> Upload CSV to database
- В поле CSV Upload укажите сохраненный CSV-файл, а в поле Table Name — имя, под которым вы будете хранить эту таблицу
Задание № 3
Подключитесь к базе данных PostgreSQL в Preset с помощью этих данных:
- HOST: 65.108.223.44
- PORT: 5432
- DATABASE NAME: flightsdb
- USERNAME: student
- PASSWORD: student
Нажмите сюда, чтобы увидеть подсказку
- Нажмите кнопку Settings в верхней правой части интерфейса
- В выпадающем списке выберите Database connection
- В открывшемся меню нажмите кнопку DATABASE в верхней правой части интерфейса
- В открывшемся окне выберите PostgreSQL и введите данные для подключения
- После успешного подключения нажмите кнопку Finish
Дополнительные материалы
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.