Функция sorted()
хорошо демонстрирует важность и удобство функций высшего порядка для решения повседневных задач. Описав алгоритм один раз, мы можем получать различные варианты поведения, специфицируя их прямо по месту сортировки. То же самое относится к map()
, filter()
и reduce()
.
При использовании функций высшего порядка принято разделять задачу на подзадачи и выполнять их последовательно друг за другом, выстраивая в цепочку операций. Такое решение выглядит как протаскивание данных сквозь цепочку функций-преобразователей.
В СИКП такой подход сравнивают с тем, как происходит обработка сигналов при проектировании электросхем. Ток, протекая по схеме, проходит через цепочку преобразователей: фильтров, подавителей шума, усилителей и так далее. Напряжение (и создаваемый им ток) в этом случае выполняет роль данных, а преобразователи – роль функций.
Предположим, что мы пишем функцию, которая принимает на вход список путей файловой системы, находит среди них файлы с расширением .py
без учета регистра и возвращает имена этих файлов. Для решения этой задачи нам понадобятся следующие функции:
- pathlib.Path(filepath) - создает объект Path, который предоставляет удобные методы для работы с путями файловой системы
- path.is_file() — проверяет, является ли объект обычным "регулярным" файлом (а не директорией, ссылкой или другим типом файлов)
- path.suffix — извлекает "расширение" из имени файла
- path.stem— извлекает имя файла из полного пути
import os
import pathlib
def get_py_file_names(paths):
result = []
for filepath in paths:
# Создаем объект Path для удобной работы с путями
path = pathlib.Path(filepath)
# Извлекаем расширение и приводим к нижнему регистру
extension = path.suffix.lower()
# Проверяем, существует ли путь, является ли файлом и имеет ли расширение .py
if path.is_file() and extension == '.py':
# Нормализуем путь и добавляем в результирующий список
result.append(path.stem.lower())
return result
# Пример использования
names = get_py_file_names(['solution.py', 'solution_test.py', 'README.md', '.venv'])
print(names) # => ['solution', 'solution_test']
В примере выше типовое решение с использованием цикла. Его алгоритм можно описать так:
- Просматриваем каждый путь
- Если текущий путь — обычный файл с расширением .py (без учета регистра), то добавляем в результирующий список
Но если хорошо подумать, то можно увидеть, что эта задача распадается на две: фильтрацию и отображение.
import pathlib
# описываем предикат
def is_py_file(path):
return pathlib.Path(path).is_file() \
and pathlib.Path(path).suffix.lower() == '.py'
def get_py_file_names(paths):
# используем генераторное выражение, чтобы не создавать промежуточные списки
py_files = (path for path in paths if is_py_file(path))
return [pathlib.Path(path).stem.lower() for path in py_files]
names = get_py_file_names(['solution.py', 'solution_test.py', 'README.md', '.venv'])
print(names) # => ['solution', 'solution_test']
Код получился чуть короче (без учета комментариев), и выразительнее, но главное не его размер. С увеличением количества операций и их сложности, код, разбитый таким образом, читается и анализируется значительно проще, так как каждая операция выполняется независимо для всего набора сразу. В голове приходится держать меньше деталей и можно сразу увидеть то, как операция влияет на все данные. Однако, научиться правильно разбивать задачу на подзадачи не так просто, как может показаться вначале. Нужна некоторая практика и сноровка перед тем, как ваш код станет удобоварим.
Сама возможность такого разбиения основывается на простой идее, которую иногда называют "стандартные интерфейсы". Заключается она в том, что на входе и выходе из функций ожидается один и тот же тип данных, в нашем случае, список. Это позволяет соединять функции и строить цепочки, выполняющие большое количество разных задач, без необходимости реализовывать новые функции. Рассмотренные ранее операции — отображение, фильтрация и агрегация — комбинируясь друг с другом, позволяют решать подавляющее число задач по обработке коллекций. С чем-то подобным мы все встречались в своей жизни, когда собирали конструкторы Lego. Небольшое число примитивных деталей за счет одинаковых соединений позволяет строить конструкции практически неограниченной сложности.
Кстати, подобные цепочки нередко заканчиваются на агрегации, так как агрегация почти всегда выполняется в конце и сводит коллекцию к некоторому значению.
Производительность
За кадром остался вопрос производительности. Возможно, кто-то из вас догадался, что на каждый вызов функции, обрабатывающей коллекцию, мы получаем проход по всему списку. Чем больше таких функций, тем больше проходов. Казалось бы, код замедляется, зачем так делать? На практике дополнительные проходы — практически никогда не проблема (см. ссылку "Продуманная оптимизация" в дополнительных материалах). Задачи, в которых требуется одномоментная обработка десятков и сотен тысяч элементов, встречаются крайне редко. Большая часть операций происходит со списками до тысяч элементов. А для такого списка одним проходом больше одним меньше — разницы, можно сказать, никакой.
Также не забывайте использовать ленивые вычисления, где это можно. Часто в промежуточных шагах обработки нам не нужна сама коллекция в памяти. По сути мы можем накапливать необходимые действия, а во время первого использования выполнить сразу все одним проходом.
Дополнительные материалы
Остались вопросы? Задайте их в разделе «Обсуждение»
Вам ответят команда поддержки Хекслета или другие студенты
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.