В разгар матча за звание чемпиона мира по шахматам (играют россиянин Непомнящий против Динь Лиженя) и в преддверии старта курса «Аналитик данных» — пост для любителей шахмат и анализа данных. Текст составил едва закончивший обучаться дата-инженер.
Есть такая традиция у Хекслета: раз в полгода проводить шахматный турнир. Как правило, это блиц с пятиминутным контролем времени. Итак, я решил собрать занимательные факты о турнирах, проведенных в 2022 году (как я собирал данные, описал в самом конце).
В летнем турнире участвовало 36 участников, в зимнем — 33; соответственно, проведена 131 и 91 игра. Я участвовал только в летнем, и тогда в чате люди «бронили» за собой не самый популярный дебют Гроба. Это заставило меня задуматься над тем, какой процент людей играет «неправильное» начало в шахматах в турнирах Хекслета. Под неправильным началом подразумевают ослабление давления на центр (район e4-5, d4-5), либо потеря темпа (то есть передается фора первого удара), которая возникает, как правило (но не всегда), при фланговом дебюте. Доля такого начала в современных турнирных шахматах составляет менее 1%.
В наших турнирах 2022 года было целых 10 неправильных дебютов из 222 игр (30% побед при таком дебюте). Дебюта Гроба не сыграно ни одного :(
Общая информация по турнирам Хекслета:
Общая статистика:
Побед — 112 (50,5) Ничьих — 6 (2,7) Поражений — 104 (46,8)
Я нашел информацию по «неправильным» дебютам, а заодно убедился, что белые фигуры выигрывают чаще черных (удивительно!), а делать более глубокие и неочевидные выводы — работа дата-аналитика.
Задачей дата-аналитиков в данной ситуации будет:
- Определиться с тем, что хотят от вас получить
- Выбрать математическую модель, при помощи которой будете решать поставленную задачу
- Непосредственно решить проблему
- Визуализировать (я сделал это через Excel, но хорошо бы через Python)
- Презентовать полученный результат.
Кстати, 20 апреля на Хекслете выходит профессия «Аналитик данных», которая будет полезна для более глубокого понимания того, кто такой дата-аналитик, какие задачи перед ним стоят и как он их решает (мне не заплатили, честное слово).
P.S. О том, как собирал данные. Для этого пошел на сайт Lichess (где и проводится турнир), стал членом клуба Хекслет и скачал все игры летнего и зимнего турнира в формате pgn. При помощи нехитрых манипуляций перевел pgn в формат txt, загрузил через Python (библиотеки Pandas и Psycopg2) в учебную базу, привел к более-менее нормальной форме. Уже из этой таблицы можно вывести все данные, используемые выше.