как посчитать дубликаты pandas

Аватар пользователя Ivan Mamtsev
Ivan Mamtsev
29 мая 2024

Для подсчета дубликатов в DataFrame с помощью библиотеки pandas можно использовать метод duplicated(). Этот метод возвращает булеву серию, указывающую, является ли каждая строка дубликатом или нет. Чтобы посчитать количество дубликатов, можно использовать метод sum() для подсчета количества значений True в булевой серии.

Пример кода:

import pandas as pd

# создание DataFrame
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# поиск дубликатов
duplicates = df.duplicated()

# подсчет дубликатов
num_duplicates = duplicates.sum()

Этот код создает DataFrame, находит дубликаты с помощью метода duplicated() и подсчитывает количество дубликатов с помощью метода sum().

0 0