Python: Numpy

Теория: Индексы, срезы и итеративный обход

Numpy

Массивы данных в Python можно разделить на два типа по наличию или отсутствию порядка элементов. Например:

  • Множество set или словарь dict относятся к неупорядоченным данным — не удастся обойти их по индексу
  • Зато такая возможность есть со списком list или кортежем tuple — у их элементов индексы есть

Для массивов numpy.ndarray порядок элементов важен, потому что он помогает ускорить обработку данных. Его индексация похожа на индексацию списка list. В этом уроке подробнее разберем эту тему, а также поговорим о правилах и методах работы с индексами массивов numpy.ndarray.

Правила индексирования массивов

Возьмем пример из прошлого урока и добавим к нему чуть больше данных:

# Импорт библиотеки numpy с псевдонимом np
import numpy as np

# Создание списка языка Python
numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Конвертация созданного списка в массив Numpy
numpy_numbers = np.array(numbers)

# Тип созданного объекта numbers
print(type(numbers))
# => <class 'list'>

# Тип созданного объекта numpy_numbers
print(type(numpy_numbers))
# => <class 'numpy.ndarray'>

Получим элемент массива numpy.ndarray. Здесь принцип такой же, как с получением элемента списка:

# Получение элемента по индексу из списка
print(numbers[2])
# => 2

# Получение элемента по индексу из numpy.ndarray
print(numpy_numbers[2])
# => 2

Отрицательные целые значения также применимы к индексации массивов numpy.ndarray:

# Получение элемента по отрицательному индексу из списка
print(numbers[-1])
# => 9

# Получение элемента по отрицательному индексу из numpy.ndarray
print(numpy_numbers[-1])
# => 9

В многомерном случае делается все по аналогии:

# Создание списка списков
numbers_lists = [
    [
        0,
        1,
        2,
    ],
    [
        3,
        4,
        5,
    ],
    [
        6,
        7,
        8,
    ],
    [9, 10, 11],
]

# Конвертация созданного списка списков в массив Numpy
numpy_numbers_lists = np.array(numbers_lists)

# Получение элемента по индексу из списка
print(numbers_lists[2][1])
# => 7

# Получение элемента по индексу из numpy.ndarray
print(numpy_numbers_lists[2][1])
# => 7

# Получение элемента по индексу из numpy.ndarray
# Более предпочтительный способ
print(numpy_numbers_lists[2, 1])
# => 7

Выше мы рассмотрели два способа получения элементов массива. Лучше всего использовать последний, потому что он выполняется за меньшее время. Причины станут ясны дальше, после знакомства с операцией среза.

Операции среза данных

Операция среза — это удобный и распространенный способ получить некоторое подмножество элементов, идущих подряд. Срез помогает сократить время выполнения подвыборки за счет того, что не нужно использовать циклы:

Рассмотрим примеры срезов:

# Создание списка языка Python
numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Конвертация созданного списка в массив Numpy
numpy_numbers = np.array(numbers)

# Срезы
# Первые элементы списка
print(numpy_numbers[:4])
# => [0 1 2 3]

# Середина
print(numpy_numbers[2:5])
# => [2 3 4]

# Последние элементы списка
print(numpy_numbers[-3:])
# => [7 8 9]

Срезы многомерных массивов упрощают операции со списками:

# Создание списка списков
numbers_lists = [
    [
        0,
        1,
        2,
    ],
    [
        3,
        4,
        5,
    ],
    [
        6,
        7,
        8,
    ],
    [9, 10, 11],
]

# Конвертация созданного списка списков в массив Numpy
numpy_numbers_lists = np.array(numbers_lists)

# Вырезание элементов из numpy.ndarray
print(numpy_numbers_lists[:2, :2])
# => [[0 1]
#     [3 4]]

# Попытка вырезать те же элементы из списка
print(numbers_lists[:2][:2])
# => [[0, 1, 2], [3, 4, 5]]

# Решение для вырезания элементов из списка
print([row[:2] for row in numbers_lists[:2]])
# => [[0, 1], [3, 4]]

В примере выше мы вырезали элементы из верхнего левого квадрата исходной таблицы размером 2x2. Чтобы решить такую задачу с помощью списков, нужно было бы писать дополнительный код, тратить больше времени и сил.

Еще одна востребованная операция с многомерными массивами — получение строк и столбцов значений. Снова используем срезы массива numpy.ndarray и реализуем задачу таким образом:

# Создание списка списков
numbers_lists = [
    [
        0,
        1,
        2,
    ],
    [
        3,
        4,
        5,
    ],
    [
        6,
        7,
        8,
    ],
    [9, 10, 11],
]

# Конвертация созданного списка списков в массив Numpy
numpy_numbers_lists = np.array(numbers_lists)

# Вырезание 0 строки из numpy.ndarray
print(numpy_numbers_lists[0, :])
# => [0 1 2]

# Вырезание 0 строки — еще один способ
print(numpy_numbers_lists[0])
# => [0 1 2]

# Вырезание 1 столбца из numpy.ndarray
print(numpy_numbers_lists[:, 1])
# => [ 1  4  7 10]

Итеративный обход

Как мы говорили выше, в работе с массивами лучше не пользоваться циклами. Если есть возможность, лучше обходить элементы в нужном порядке с возможным периодическим пропуском элементов — так мы экономим время выполнения:

# Создание списка языка Python
numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Конвертация созданного списка в массив Numpy
numpy_numbers = np.array(numbers)

# Четные элементы массива
print(numpy_numbers[::2])
# => [0 2 4 6 8]

# Обратный порядок элементов массива
print(numpy_numbers[::-1])
# => [9 8 7 6 5 4 3 2 1 0]

Знак шага указывает на порядок обхода: плюс говорит о восходящем порядке обхода индексов, минус — об обратном. Значение шага задает период обхода. Аналогичный синтаксис применим и для многомерных массивов:

# Создание списка списков
numbers_lists = [
    [
        0,
        1,
        2,
    ],
    [
        3,
        4,
        5,
    ],
    [
        6,
        7,
        8,
    ],
    [9, 10, 11],
]

# Конвертация созданного списка списков в массив Numpy
numpy_numbers_lists = np.array(numbers_lists)

# Перестановка строк в обратном порядке
print(numpy_numbers_lists[::-1])
# => [[ 9 10 11]
#     [ 6  7  8]
#     [ 3  4  5]
#     [ 0  1  2]]

# Четные столбцы
print(numpy_numbers_lists[:, ::2])
# => [[ 0  2]
#     [ 3  5]
#     [ 6  8]
#     [ 9 11]]

Закрепим знания на практике

Воспользуемся недельными данными по продажам сети магазинов:

ДеньМагазин №1Магазин №2Магазин №3Магазин №4
ПН7178
ВТ4245
СР3523
ЧТ81287
ПТ1511139
СБ21181721
ВС25162517

Подготовим данные для решения задач:

# Импортируем библиотеку numpy с псевдонимом np
import numpy as np

# Создаем «лист листов» продаж
orders_values = [
    [7, 1, 7, 8],
    [4, 2, 4, 5],
    [3, 5, 2, 3],
    [8, 12, 8, 7],
    [15, 11, 13, 9],
    [21, 18, 17, 21],
    [25, 16, 25, 17],
]

# Конвертируем созданный «лист листов» в массив Numpy
orders = np.array(orders_values)

А теперь пошагово выполним три задачи.

Задача 1. Оставить только первые два магазина:

# Оставляем только первые два магазина
print(orders[:, :2])
# => [[ 7,  1],
#     [ 4,  2],
#     [ 3,  5],
#     [ 8, 12],
#     [15, 11],
#     [21, 18],
#     [25, 16]]

Задача 2. Оставить в рассмотрении данные продаж за выходные дни:

# Оставляем в рассмотрении данные продаж за выходные дни
print(orders[-2:])
# => [[21, 18, 17, 21],
#     [25, 16, 25, 17]]

Задача 3. Сделать обратный порядок дней в таблице:

# Делаем обратный порядок дней в таблице
print(orders[::-1])
# => [[25, 16, 25, 17],
#     [21, 18, 17, 21],
#     [15, 11, 13, 9],
#     [8, 12, 8, 7],
#     [3, 5, 2, 3],
#     [4, 2, 4, 5],
#     [7, 1, 7, 8]]

Выводы

В этом уроке мы изучили основные методы работы с индексами массивов. Индексация, срезы и итеративный обход списков list синтаксически похожи на операции над массивами numpy.ndarray. Однако есть и некоторые особенности, которые позволяют упростить и ускорить работу с подвыборками элементов массивов Numpy.

Рекомендуемые программы