Что такое Pandas и как с ним работать

Читать в полной версии →

Pandas — это библиотека на языке программирования Python, предназначенная для анализа данных и работы с табличными данными. Она особенно удобна для выполнения различных операций с данными: фильтрации, группировки, агрегации и других.

Основные структуры данных в Pandas

Основные структуры данных в Pandas — это DataFrame и Series. Они позволяют обрабатывать данные эффективно и интуитивно понятно.

Series

Series — это одномерный массив данных, который может содержать любой тип данных (целые числа, строки, числа с плавающей точкой, объекты Python и т. д.). Каждому элементу в Series соответствует метка, которая называется индексом. По умолчанию, если индекс не задан явно, он автоматически создается как последовательность целых чисел 0, 1, 2, ... и до n-1, где n — количество элементов в Series.

Основные операции с Series:

DataFrame

DataFrame — это двумерная структура данных, похожая на таблицу в SQL или на лист в Excel. DataFrame поддерживает столбцы различных типов данных, что очень удобно для задач по обработке данных, включая статистический анализ, очистку данных, а также их визуализацию.

Основные операции с DataFrame:

Пример использования Pandas

Рассмотрим простой пример, который демонстрирует эти операции. Допустим, в базе данных собраны данные людей из разных городов, разного возраста. Вот что можно делать с этими данными с помощью Pandas.

Просмотр данных

Выборка данных

Фильтрация

Группировка и агрегация

Сохранение данных

В нашем примере, создав DataFrame, можно отфильтровать данные, выделив только людей младше 25 лет, затем сгруппировать эти данные и сохранить.

import pandas as pd

# Создание DataFrame

data = {

'Name': ['John', 'Anna', 'James', 'Linda'],

'Age': [28, 22, 35, 32],

'City': ['New York', 'Paris', 'London', 'Berlin']

}

df = pd.DataFrame(data)

# Просмотр данных

print(df.head())

# Выборка данных

print(df['Age'])  # Возвращает столбец Age

# Фильтрация

print(df[df['Age'] > 25])

# Группировка и агрегация

print(df.groupby('City').mean())

# Сохранение данных

df.to_csv('output.csv', index=False)

Заключение

Pandas — это прекрасный инструмент для работы с данными, который используется в Data Science, финансовом анализе, исследовании и других областях. Благодаря широкому набору функций можно легко обрабатывать, анализировать и визуализировать данные в удобной форме.