Зарегистрируйтесь, чтобы продолжить обучение

Подключение данных Визуализация в Superset

Подключение источников данных к Apache Superset

В современной аналитике часто приходится работать с данными из различных источников. Apache Superset предоставляет гибкие возможности для подключения и визуализации данных из электронных таблиц, CSV-файлов и баз данных. Каждый тип подключения имеет свои особенности, которые важно понимать для эффективной работы.

Подключение Google Sheets

Одним из удобных источников данных является Google Sheets, особенно когда требуется работать с динамически обновляемыми данными. При таком подключении Superset не хранит сами данные, а обращается к таблице по URL при каждом обновлении визуализации.

Процесс подключения Google Sheets включает несколько важных шагов:

  1. Настройка доступа к таблице:
    1. Создать или открыть Google Sheets документ
    2. Нажать кнопку "Настройки доступа"
    3. Выбрать "Доступ по ссылке"
    4. Установить права доступа (Просмотр/Комментирование/Редактирование)
  2. Подключение в Superset:
    1. Нажать "+" -> "Connect Google Sheets"
    2. Указать Display Name
    3. Выбрать тип доступа (только публичные таблицы)
    4. Вставить URL таблицы
    5. Нажать "Connect"

После подключения становятся доступны дополнительные возможности работы с данными через SQL Lab, где можно писать запросы к таблице как к обычной базе данных. Также можно создавать датасеты и визуализации на основе данных из Google Sheets.

Работа с CSV-файлами

CSV-файлы отличаются от Google Sheets тем, что при загрузке данные сохраняются в собственной базе данных Superset. Это означает, что последующие изменения в исходном файле не будут автоматически отражаться в визуализациях - потребуется повторная загрузка файла.

Процесс загрузки CSV:

  1. Выбрать "Data" -> "Upload CSV to Database"
  2. Указать имя таблицы (Table Name)
  3. Выбрать разделитель (Delimiter) - запятая, точка с запятой и др.
  4. Определить поведение при существовании таблицы (Fail/Replace/Append)
  5. Загрузить файл и подтвердить

Важной особенностью является то, что Superset автоматически определяет типы данных в колонках, что может быть полезно для дальнейшей работы с числовыми данными.

Подключение к PostgreSQL

Работа с базами данных представляет наиболее гибкий вариант подключения, поскольку позволяет работать с актуальными данными в реальном времени. Для подключения PostgreSQL необходимо:

  1. Перейти в "Settings" -> "Database Connections"
  2. Выбрать "Connect Database"
  3. Указать тип базы данных (PostgreSQL)
  4. Заполнить параметры подключения:
    • Host
    • Port
    • Database name
    • Username
    • Password
  5. Настроить права доступа к операциям с базой данных

После подключения становятся доступны все таблицы и схемы базы данных, к которым можно обращаться через SQL Lab или создавать датасеты для визуализаций.

Особенности работы с различными источниками

Важно понимать ключевые различия между источниками данных:

  • Google Sheets обеспечивает динамическое обновление данных при изменении исходной таблицы
  • CSV и Excel файлы хранятся в базе Superset и требуют ручного обновления при изменении исходных данных
  • Подключение к базам данных позволяет работать с актуальными данными и обновлять их одним нажатием кнопки Refresh

Веб-версия Superset имеет некоторые ограничения по сравнению с десктопной версией, например, отсутствие прямой поддержки Excel-файлов и ограниченный список поддерживаемых СУБД. Однако даже в веб-версии доступен весь основной функционал для создания эффективных визуализаций данных.


Самостоятельная работа

В этих заданиях мы попрактикуемся и в получении данных из различных источников.

Задание № 1

Скопируйте к себе эту таблицу и загрузите ее в Preset.

Нажмите сюда чтобы увидеть подсказку
  • Нажмите кнопку со знаком + в верхней правой части интерфейса
  • В выпадающем списке выберите Data -> Connect Google Sheet
  • В поле GOOGLE SHEET NAME AND URL введите название таблицы и ссылку на нее

Задание № 2

Сохраните локально csv-файл, доступный по ссылке. После этого загрузите данный файл в Preset.

Нажмите сюда, чтобы увидеть подсказку
  • Нажмите кнопку со знаком + в верхней правой части интерфейса
  • В выпадающем списке выберите Data -> Upload CSV to database
  • В поле CSV Upload укажите сохраненный CSV-файл, а в поле Table Name — имя, под которым вы будете хранить эту таблицу

Задание № 3

Подключитесь к базе данных PostgreSQL в Preset с помощью этих данных:

  • HOST: 65.108.223.44
  • PORT: 5432
  • DATABASE NAME: flightsdb
  • USERNAME: student
  • PASSWORD: student
Нажмите сюда, чтобы увидеть подсказку
  • Нажмите кнопку Settings в верхней правой части интерфейса
  • В выпадающем списке выберите Database connection
  • В открывшемся меню нажмите кнопку DATABASE в верхней правой части интерфейса
  • В открывшемся окне выберите PostgreSQL и введите данные для подключения
  • После успешного подключения нажмите кнопку Finish

Дополнительные материалы

  1. Документация Preset по подключению данных

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff