In dieser Übung untersuchen Sie den Unterschied zwischen
- Pearson Korrelation (wobei ein linearer Zusammenhang zwischen den beiden Variablen angenommen wird)
- Spearman-Korrelation (bei dem nur eine monotone Beziehung erforderlich ist).
- Dies wird Ihnen helfen, den Unterschied zwischen den beiden Arten von Korrelationen zu verstehen, insbesondere wenn die Daten die lineare Annahme nicht erfüllen. Um den Unterschied zwischen den beiden Maßen besser darzustellen, erstellen Sie synthetische Daten, die Ihren Zweck erfüllen. Beginnen Sie mit der Definition Ihrer Zufallsvariablen. Erstellen Sie eine X-Variabledas Ihr darstellen wird unabhängige Variableund zwei abhängige , Ylin Und Ymonwas wie folgt ausgedrückt werden kann:
Berechnen Sie die Pearson und Spearman Korrelationen mit den Funktionen pearsonr() und spearmanr() im Modul scipy.stats:
Beachten Sie, dass sowohl die Funktionen „pearsonr()“ als auch „spearmanr()“ ein zweidimensionales Array zurückgeben, in dem die Der erste Wert ist die jeweilige Korrelationwährend Der zweite ist der p-Wert eines Hypothesentests, bei dem die Nullhypothese davon ausgeht, dass die berechnete Korrelation gleich Null ist. Dies ist manchmal sehr praktisch, da Sie nicht nur die Korrelation berechnen, sondern auch ihre statistische Signifikanz gegen Null testen.
Visualisieren Sie sowohl die Daten als auch die berechneten Korrelationen:
Wie Sie der vorherigen Abbildung entnehmen können, sind die beiden Korrelationskoeffizienten sehr ähnlich, wenn die Beziehung zwischen den beiden Variablen linear ist (Abbildung hyperlinks). In der monotonen Beziehung (Abbildung rechts) versagt die lineare Annahme der Pearson-Korrelation, und obwohl der Korrelationskoeffizient immer noch recht hoch ist (0,856), ist er nicht in der Lage, die perfekte Beziehung zwischen den beiden Variablen zu erfassen. Andererseits beträgt der Spearman-Korrelationskoeffizient 1, was bedeutet, dass es ihm gelingt, die nahezu perfekte Beziehung zwischen den beiden Variablen zu erfassen