SQL

Теория: Фильтрация c помощью оператора HAVING

Иногда встречаются задачи, в которых требуется отфильтровать записи после группировки.

Для примера представим, что нам нужно вывести суммарное время, проведенное на платформе каждым пользователем:

SELECT
    user_id,
    SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
ORDER BY user_id;
user_idsum
169
260
39
468
977
1627

View on DB Fiddle

Мы видим, что кто-то из пользователей провел много времени, а кто-то — совсем мало. Мы можем выбрать пользователей, которые провели на платформе меньше 30 минут, а затем связаться с ними и узнать, что именно им не понравилось.

Подобные условия невозможно задать с помощью WHERE, потому что они применяются к выборке до момента группировки. У нас немного другой случай — мы хотим задать условие на результат агрегатной функции после проведения группировки.

В этой задаче понадобится дополнение к GROUP BY, которое называется HAVING. Именно его мы изучим в этом уроке.

Ключевое слово HAVING

С помощью ключевого слова HAVING мы можем задать условия на строки выборки после группировки данных.

Попробуем найти пользователей, которые потратили менее 30 минут в онлайн-школе. Для этого напишем такой запрос:

SELECT
    user_id,
    SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
user_idsum
39
1627
234
6727
7527
7813

View on DB Fiddle

Таких пользователей оказалось 6 человек.

Чем HAVING отличается от WHERE

Давайте дополним наш запрос — укажем, что искать пользователей мы будем только среди первых 40 человек. Для этого добавим условие user_id <= 40:

SELECT
    user_id,
    SUM(spent_minutes)
FROM course_reviews
WHERE user_id <= 40
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
user_idsum
39
1627
234

View on DB Fiddle

Обратим внимание на синтаксис запроса. Условия в HAVING проверяются после группировки, поэтому они задаются после предложения GROUP BY. В этом и состоит отличие от условий WHERE, которые применяются к строкам исходной таблицы до группировки.

Таким образом, сначала мы убрали из исходной таблицы всех пользователей с user_id > 40, затем провели группировку и посчитали суммарное время, а после этого отсеяли тех, кто пользовался платформой дольше 30 минут.

В этой ситуации мы могли бы добавить условие на user_id и в HAVING и получили бы тот же результат:

SELECT
    user_id,
    SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30 AND user_id <= 40
ORDER BY user_id;
user_idsum
39
1627
234

View on DB Fiddle

Такой запрос будет выполняться дольше, особенно если таблицы будут большими. Лучше сперва исключить ненужных пользователей, сгруппировать уже отфильтрованные данные и затем посчитать агрегатные функции.

Выводы

В этом уроке мы научились задавать условия на значение полей после группировки и применения агрегатных функций. Теперь вы знаете, как отфильтровать строки в сгруппированных данных с помощью HAVING.

Еще мы разобрали разницу между WHERE и HAVING:

  • Если мы задаем условия через WHERE, они применяются к строкам исходной таблицы до группировки данных. Поэтому WHERE записывается до GROUP BY
  • Если мы задаем условия через HAVING, они проверяются уже после группировки данных и записываются после предложения GROUP BY

Рекомендуемые программы

Завершено

0 / 25