Python: Anaconda

Теория: Решение аналитической задачи с помощью Jupyter Notebook

Полный доступ к материалам

Зарегистрируйтесь и получите доступ к этому и десяткам других курсов

Сегодня мы продолжаем знакомство с Anaconda.

Подготовка к работе

Давайте начнем с вводных. У нас есть датасет, который мы скачали с сайта Kaggle.com, известной платформы для данных и машинного обучения. Этот датасет содержит информацию о клиентах магазина, включая их идентификаторы, пол, возраст, годовой доход и покупательную активность (spending score).

Файл датасета представляет собой CSV-файл (Comma-Separated Values) с разделителем запятаями. CSV-формат широко используется для хранения и обмена данными в табличной форме. Если бы мы попробовали открыть этот файл в текстовом редакторе или табличном процессоре, все данные были бы объединены в одну колонку. Однако Python может легко обработать CSV-файлы и разбить данные на столбцы для дальнейшего анализа.

Также у нас есть файл с расширением .ipynb. Это стандартное расширение для Jupyter Notebook. Эти файлы сохраняются в формате JSON и могут быть легко переносимыми между разными системами и устройствами.

Для решения этой аналитической задачи мы будем использовать Anaconda Navigator, включающую в себя Jupyter Notebook, а также Python. Мы создадим новое рабочее окружение, установим необходимые библиотеки (Pandas и Matplotlib) и выполним задачу.

Сначала мы создадим новое окружение в Anaconda Navigator и установим необходимые библиотеки. Затем мы загрузим и откроем Jupyter Notebook, где будем работать с датасетом и решать задачу.

Убедитесь, что вы следите за этим процессом, так как это важная часть аналитической работы с использованием Anaconda и Jupyter Notebook.

Загрузка библиотек

У нас есть настроенная среда для работы, но пока не доступна плашка с выбором рабочей среды (environment). Как только она станет доступной, мы выберем не базовую среду (base route), а уже созданную, с настройками и библиотеками для решения задачи.

Время, пока загружаются необходимые библиотеки, можно использовать для изучения данных, которые у нас есть. Обратите внимание, что из соображений безопасности данные анонимизированы, чтобы предотвратить утечку и неправильное использование.

Давайте поговорим о проекте и задачах, которые мы должны решить. В этом проекте мы будем сталкиваться с задачей визуализации данных, расчета статистических параметров и даже SQL-запросами для агрегации данных.

Теперь давайте перейдем к новой рабочей среде. Здесь мы видим все приложения, которые доступны. Однако Jupyter Lab пока не установлен. Я нажимаю "Install," и приложение начинает скачиваться из интернета.

Нашей основной задачей на этом уроке является научиться создавать и запускать Jupyter Notebooks. В этом блокноте, у меня есть разделы Markdown, в которых я комментирую и объясняю, что мы делаем. Также есть блоки с кодом, которые мы будем выполнять. Markdown-блоки представляют собой комментарии к коду и служат для описания процесса и целей.

После создания таких комментариев, мы можем перейти к выполнению блоков кода, чтобы увидеть результаты наших действий.

Создание Markdown-блоков просто - мы используем решетку для создания заголовков разных уровней, добавляем текст и описываем процесс.

Для загрузки данных и выполнения операций над ними мы будем использовать Pandas для обработки датасета и Matplotlib для построения точечных графиков. Важно удостовериться, что необходимые библиотеки установлены, и мы можем ими пользоваться.

Теперь давайте начнем работу с данными.

Работа с данными

После того как мы запустили запрос, и он успешно отработал, мы получили множество данных между первой и последней строкой.

Далее мы предпринимаем шаги, чтобы сделать нашу таблицу более удобной для работы. Мы присваиваем индексной колонке имя "customer ID" и убираем колонку с индексами, что делает работу с таблицей более удобной.

Затем мы переходим к анализу статистики данных в нашем датасете. Мы используем функцию describe из библиотеки Pandas для вычисления средних значений, стандартного отклонения и процентилей для каждой из числовых метрик в нашем датасете.

Далее мы проводим работу с группировкой данных — вычисляем суммы и количество повторений годового дохода по возрастным группам. Затем мы строим фрейм данных (data frame) на основе этой информации и выводим первые 200 записей.

В завершение, давайте создадим точечный график распределения возраста по баллам "score," используя библиотеку Matplotlib. Сперва, определим оси X и Y, выберем тип графика и добавим названия осей и графика. В результате мы получили график, который показал, что у клиентов до 40 лет баллы "score" выше, чем у клиентов старше 40 лет.

Подводя итоги, мы видим, насколько удобно использование Jupyter Notebook для создания и запуска блокнотов. Мы можем легко комментировать код, описывать процесс, и выполнять код сигментами. Благодаря этому инструменту, мы можем эффективно работать над проектами, ведя все работы внутри одного инструмента.