Bei der statistischen Analyse von Daten stoßen wir oft auf rätselhafte Situationen, in denen die Wahrheit möglicherweise nicht so klar ist, wie sie scheint. Die Analyse von Daten erfordert sorgfältige Überlegungen, da unterschiedliche Perspektiven zu gegensätzlichen Schlussfolgerungen führen können. Daher ist es wichtig, die Daten aus allen Blickwinkeln zu prüfen, bevor Schlussfolgerungen gezogen werden.
Tauchen wir tief in die Welt der Paradoxien ein und schauen wir uns einige Beispiele aus der Praxis an, die die Bedeutung einer gründlichen Datenanalyse verdeutlichen.
Vielleicht das berühmteste Paradoxon in der Welt der Datenwissenschaft. Es tritt auf, wenn ein Pattern oder eine Beziehung in verschiedenen Datengruppen auftritt, sich der Pattern jedoch umkehrt oder verschwindet, wenn die Gruppen kombiniert werden.
Betrachten Sie das Beispiel des Falles der geschlechtsspezifischen Voreingenommenheit an der UC Berkley. Die Zulassungszahlen für den Herbst 1973 zeigten, dass die Wahrscheinlichkeit einer Zulassung bei Männern höher struggle als bei Frauen, und der Unterschied struggle so groß, dass es unwahrscheinlich struggle, dass er auf Zufall zurückzuführen struggle. Bei den Männern lag sie bei etwa 44 %, bei den Frauen bei 35 %. Berücksichtigt man jedoch die einzelnen Abteilungen und die Anzahl der Bewerberinnen und Bewerber, bewarben sich mehr Frauen in den Abteilungen, in denen die Auswahlquote insgesamt geringer ist, und Männer, in denen die Auswahlquote höher struggle. Obwohl bei der Aufnahme keine Voreingenommenheit vorlag, struggle die Wahrscheinlichkeit, dass Männer aufgenommen wurden, höher als bei Frauen.
Das Berkson-Paradoxon tritt auf, wenn bei der Betrachtung eines eingeschränkten Unterraums eine unfavourable Korrelation zwischen zwei Variablen auftritt. Sie entsteht durch den Auswahlprozess und kann einen künstlichen Zusammenhang herstellen, auch wenn zwischen den beiden Variablen kein echter Kausalzusammenhang besteht.
Berücksichtigen Sie die Wahrscheinlichkeit, an einer Universität zugelassen zu werden, basierend auf dem GPA- und SAT-Ergebnis. Nun ist es wahr, dass ein Scholar im Allgemeinen nicht beides so intestine hat. Obwohl Studenten mit hervorragenden GMAT- und GPA-Ergebnissen eher nicht zugelassen werden, liegt das nicht daran, dass ihnen bestimmte Fähigkeiten fehlen, sondern weil diese Studenten laut unserem Datensatz bessere Universitäten besuchten, weil sie herausragend waren.
Der ökologische Irrtum ist ein Paradoxon, bei dem Schlussfolgerungen über Einzelpersonen auf der Grundlage aggregierter Daten oder Daten auf Gruppenebene gezogen werden. Sie entsteht, wenn Annahmen über individuelles Verhalten oder Merkmale ausschließlich auf der Grundlage von Beobachtungen auf Bevölkerungsebene getroffen werden.
Eine Studie ergab beispielsweise, dass Regionen mit einem hohen Einwandereranteil eine höhere Alphabetisierungsrate aufwiesen. Dies scheint kontraintuitiv zu sein, da Einwanderer im Allgemeinen aus Orten mit eingeschränkten Bildungseinrichtungen kommen. Die Instinct ist in der Tat wahr, denn in fortgeschrittenen Städten gab es mehr Einwanderer, weil diese auf der Suche nach besseren Möglichkeiten dorthin zogen. Es waren additionally nicht Einwanderer, sondern fortgeschrittene Städte, die für die höhere Alphabetisierungsrate verantwortlich waren.
Lead-Time-Bias entsteht, wenn die Früherkennung einer Krankheit oder eines Zustands die Überlebensraten zu beeinflussen scheint, selbst wenn sie tatsächlich das Leben verlängert. Dies liegt daran, dass die Früherkennung den Diagnosezeitpunkt verschiebt, ohne dass sich das Ergebnis tatsächlich ändert.
So scheint beispielsweise ein Screening-Take a look at auf eine Krankheit die Überlebensraten zu verbessern, er erkennt die Krankheit jedoch möglicherweise nur früher, ohne die Gesamtprognose zu beeinträchtigen. Nehmen wir an, es könnte vor der Diagnose Krebs bei Menschen im Alter von 40, 50 und 60 Jahren erkennen, was einen Durchschnittswert von 50 ergibt. Nehmen wir nun an, dass es Krebs sogar im Alter von 70 Jahren erkennen kann, wenn es schwieriger ist, die tatsächliche Ursache zu erkennen Für eine Krankheit verschiebt sich der Durchschnitt nun auf 55, was jedoch keine Verbesserung der Gesamtprognose bedeutet.
Der reduktionistische Irrtum basiert auf der ähnlichen Idee, dass Muster, die für den Einzelnen gelten, möglicherweise nicht für die Gruppe gelten. Dies kann passieren, weil Menschen auf individueller Ebene zwar gerne eine Initiative unterstützen würden, diese aber möglicherweise nicht vorantreiben wollen.
Ein Beispiel hierfür wäre ein Schulbusunternehmen, das alle Eltern eines schulpflichtigen Kindes in einem Viertel befragt und herausfindet, dass die überwiegende Mehrheit sagt, dass sie ihre Kinder gerne zu Fuß zur Schule bringen würden Sie möchten nicht, dass Ihr Type allein oder in einer kleinen Gruppe zur Schule geht.
Einige Referenzen, um mehr über das Thema zu erfahren:
Wie man mit Statistiken lügt
Kompromiss zwischen Bias und Varianz
Statistische Paradoxien und Irrtümer
Das Geburtstagsparadoxon