Python: Автоматическое тестирование

Теория: Тестовые данные

Полный доступ к материалам

Зарегистрируйтесь и получите доступ к этому и десяткам других курсов

Возьмем для примера функцию. Она принимает на вход HTML в виде строки, извлекает из него все ссылки и возвращает как массив:

# Для тестирования подобной функции, желательно взять HTML-код, близкий к реальному
# Это не гарантирует работоспособности функции, но дает разнообразие по структуре документа
# HTML взят из нашего проекта cv.hexlet.io
html = """
<div class="card mb-3"><div class="card-body"><div class="d-flex flex-column flex-sm-row">
<div class="d-flex flex-column mr-4"><div class="text-muted text-center mb-3">
<div class="h2 mb-0 font-weight-lighter">1</div><div class="small">Ответ</div></div>
<div class="text-muted text-center mb-3"><div class="h2 mb-0 font-weight-lighter">7</div>
<div class="small">Просмотров</div></div></div><div><h5 class="card-title">
<a href="/resumes/1">Backend Software Engineer</a></h5><div class="card-text">
<p>Программист-самоучка, избравший путь постоянного самосовершенствования.
Ценю красивый и лаконичный код, люблю функциональное программирование
(великая троица <code>map</code>, <code>filter</code>, <code>reduce</code>).</p>
<p>Использую JS, Ruby, PHP, Python, Elixir, Clojure в разной степени мастерства.</p>
<p>Восхищаюсь семейством LISP-языков, пишу свой интерпретатор LISP на Elixir.
В настоящий момент углубляюсь в ОС Unix, чтобы в дальнейшем улучшить навыки DevOps.</p>
</div><div class="text-right small"><span class="mr-3 text-muted">12 дней</span>
<a href="/users/6">Улугбек Туйчиев</a></div></div></div></div></div>
"""

links = extract_links(html)
print(links)
# => ['/resumes/1', '/users/6']

Кусок HTML в начале теста выглядит страшно — он большой и состоит из нагромождения тегов. Конечно, можно постараться и отформатировать его, но это будет ручная работа. Для любого редактора это просто строка в Python, но дело не только в форматировании.

У такого способа работы с большими кусками данных есть и другие недостатки:

При обновлениях очень легко допустить ошибку, которую сложно обнаружить визуально, причем редактор ничем не сможет помочь
Чем больше таких данных в тестах, тем сложнее их читать и отделять логику от самих данных

Было бы гораздо удобнее, если бы HTML хранился как обычный HTML в своем собственном файле. Это несложно сделать. В таком случае тест будет выглядеть так:

def test_extract_links():
    # HTML находится в файле withLinks.html в директории tests/data
    with_links_path = "test_data/withLinks.html"
    with open(with_links_path) as f:
        html = f.read()
        # Теперь с HTML удобно работать, он не загромождает тесты
        links = extract_links(html)
        assert links == ["/resumes/1", "/users/6"]

Данные, которые нужны во время запуска тестов, в тестировании называют фикстурами. Но так как этот термин "занят" инструментом pytest fixtures, то давайте договоримся, что мы будем использовать термин тестовые данные - test data. Тестовыми данными могут быть картинки, JSON- и XML-файлы, записи в базе данных и многое другое. Иногда данными может быть и код. Подобные данные нужны при тестировании различных анализаторов кода.

Обычно тестовые данные хранятся в отдельных файлах в своей директории. Затем они читаются и по необходимости используются в тестах:

tree tests/test_data

├── after.ini
├── after.html
├── after.yml
├── before.ini
├── before.html
├── before.yml
└── result.txt

Переменная __file__ это встроенная переменная Python, которая содержит путь до исполняемого интерпретатором модуля. Другими словами, когда pytest запускает модуль с тестами, то в переменной будет храниться путь до этого модуля.

Функция open() используется для открытия файлов и возвращает объект-итератор, из которого будет читаться файл. А метод read() читает весь итератор до конца и возвращает все содержимое файла.

Когда файлов больше одного, то в коде начинает появляться много похожих вызовов, считывающих файлы. В таком случае лучше вынести построение пути в отдельную функцию, а заодно воспользоваться правильным способом склеивания путей:

# используем библиотеку pathlib
# т.к она предоставляет более объектно-ориентированный подход
from pathlib import Path


def get_test_data_path(filename):
    return Path(__file__).parent / "test_data" / filename


def read_file(filename):
    return get_test_data_path(filename).read_text()


# тестируем функцию process(), которая как-то обрабатывает файл
def test_process():
    before_html = read_file("before.html")
    expected = read_file("result.txt")
    actual = process(before_html)

    assert actual == expected