Агрегация данных — наиболее важная операция при работе с деревьями. Подсчитать общее число файлов в директории, общий размер всех файлов, получить список всех файлов, найти все файлы по шаблону, все это — примеры агрегирования данных.
Ключевой момент в агрегирующих операциях — это накопление результата. Для этой задачи хорошо подходит обход дерева в глубину с использованием рекурсивного процесса, который подробно рассматривается в предыдущем уроке. С его помощью мы обходим все узлы дерева и собираем результат, начиная с самого нижнего уровня. В этом уроке мы погрузимся в эти темы и научимся на практике реализовывать агрегацию.
Как работает агрегация
Рассмотрим агрегацию с использованием рекурсивного процесса на примере подсчета общего количества узлов в дереве. Другими словами, попробуем выяснить, сколько всего файлов и директорий содержится в нашем файловом дереве:
from hexlet import fs
tree = fs.mkdir('/', [
fs.mkdir('etc', [
fs.mkfile('bashrc'),
fs.mkfile('consul.cfg'),
]),
fs.mkfile('hexletrc'),
fs.mkdir('bin', [
fs.mkfile('ls'),
fs.mkfile('cat'),
]),
])
# В реализации используем рекурсивный процесс,
# чтобы добраться до самого дна дерева
def get_nodes_count(node):
if fs.is_file(node):
# Возвращаем 1 для учета текущего файла
return 1
# Если узел — директория, получаем его потомков
children = fs.get_children(node)
# Самая сложная часть
# Считаем количество потомков для каждого потомка,
# вызывая рекурсивно нашу функцию get_nodes_count
descendant_counts = list(map(get_nodes_count, children))
# Возвращаем 1 (текущая директория) + общее количество потомков
return 1 + sum(descendant_counts)
get_nodes_count(tree)
# 8
https://repl.it/@hexlet/python-trees-aggregation-get-nodes-count
Кода здесь немного, но он неочевидный. Есть несколько ключевых моментов:
- Функция проверяет тип узла:
- Если узел — это файл, тогда из функции возвращается единица
- Если узел — это директория, тогда получаем потомков и для каждого потомка вновь вызываем нашу функцию, затем повторяем алгоритм заново
- Вызов функции на каждом потомке возвращает свой собственный результат — количество его потомков. Эти результаты образуют список с числами, которые нужно объединить
- В конце считаем общее количество всех потомков узла и добавляем к нему единицу (она обозначает текущий узел сам по себе)
Перед тем, как двигаться дальше, поизучайте этот код и попрактикуйтесь локально на своем компьютере. Это единственный способ разобраться с такой неочевидной темой как агрегация.
Остались вопросы? Задайте их в разделе «Обсуждение»
Вам ответят команда поддержки Хекслета или другие студенты
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.