как посчитать корреляцию pandas

Аватар пользователя Maksim Litvinov
Maksim Litvinov
10 июля 2024

Для того чтобы посчитать корреляцию между двумя столбцами в pandas, можно воспользоваться методом corr() DataFrame. Этот метод возвращает коэффициент корреляции Пирсона по умолчанию, который измеряет линейную зависимость между двумя переменными.

Пример кода:

import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [2, 4, 6, 8, 10]}

df = pd.DataFrame(data)

correlation = df['A'].corr(df['B'])
print(correlation) #=> 0.9999999999999999

Если нужно посчитать корреляцию между всеми столбцами в DataFrame, можно также использовать метод corr() без аргументов:

correlation_matrix = df.corr()
print(correlation_matrix)

Этот метод вернет таблицу корреляций между всеми парами столбцов в DataFrame

     A    B
A  1.0  1.0
B  1.0  1.0

Если необходимо использовать другой метод корреляции, кроме коэффициента Пирсона, можно указать его в качестве аргумента метода corr(). Например, чтобы посчитать коэффициент корреляции Спирмена, можно сделать следующим образом:

spearman_correlation = df.corr(method='spearman')
print(spearman_correlation)

Таким образом, метод corr() в pandas позволяет легко и быстро рассчитать корреляцию между переменными в DataFrame с возможностью выбора метода корреляции.

1 0