как посчитать дубликаты pandas

Аватар пользователя Ivan Mamtsev
Ivan Mamtsev
29 мая 2024

Для подсчета дубликатов в DataFrame с помощью библиотеки pandas можно использовать метод duplicated(). Этот метод возвращает булеву серию, указывающую, является ли каждая строка дубликатом или нет. Чтобы посчитать количество дубликатов, можно использовать метод sum() для подсчета количества значений True в булевой серии.

Пример кода:

import pandas as pd

# создание DataFrame
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# поиск дубликатов
duplicates = df.duplicated()

# подсчет дубликатов
num_duplicates = duplicates.sum()

Этот код создает DataFrame, находит дубликаты с помощью метода duplicated() и подсчитывает количество дубликатов с помощью метода sum().

0 0
Поможем с выбором
Если у вас есть вопросы о формате или вы не знаете, что выбрать, оставьте свой номер — мы позвоним и ответим на все вопросы
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»