Die gefährlichen Dogmen der Daten. Die Dogmen der Datenwissenschaft sind harmlos… | von Graeme Keith | Juni 2023

0
25


Die Dogmen der Datenwissenschaft sind harmlos für datengesteuerte Unternehmen, deren Wertmechanismen ein Nebenprodukt ihrer Daten sind. Doch Unternehmen, deren Daten ein Nebenprodukt ihrer Wertschöpfungsmechanismen sind, benötigen einen flexibleren Ansatz.

Foto von Guillaume Marques An Unsplash

Die moderne Datenanalyse ist von drei mythischen Dogmen geprägt

  • Daten sind der einzig natürliche Ausgangspunkt für jede Analyse
  • Der Weg zur Gewährleistung der Objektivität besteht darin, Spekulationen zu unterdrücken und „einfach“ Daten – „die Fakten“ – mit gerechter Unparteilichkeit zu sammeln
  • Daten „sprechen“. Das heißt, sie liefern uns Modelle und Erklärungen, durch die sie synthetisiert und tiefer verstanden werden und auf deren Grundlage wir fundierte Entscheidungen treffen können.

Viele der großen Erfolge in der Datenanalyse wurden in Unternehmen erzielt, die sich hauptsächlich mit Daten befassen. Hierbei handelt es sich um Unternehmen, deren Hauptaktivität (jedoch kein Wertmechanismus) darin besteht, Daten zu generieren, und die dann nachträglich nach Möglichkeiten suchen, diese Daten zu monetarisieren. Diese Unternehmen müssen kuratieren die Artwork und Weise, wie sie Wert generieren entsprechend den Erkenntnissen, die sie aus Analysen gewinnen können ihre Daten.

Aber mit der Revolution in der künstlichen Intelligenz und dem maschinellen Lernen greifen Institutionen, die sich nicht in erster Linie mit Daten befassen, immer mehr auf ihre Daten zurück, um die Welt, in der sie tätig sind, zu erklären und die geschäftlichen und politischen Probleme anzugehen, mit denen sie konfrontiert sind. Diese Unternehmen müssen kuratieren ihre Daten entsprechend den Erkenntnissen, die sie aus der Analyse gewinnen können die Artwork und Weise, wie sie Wert generieren.

Hier wird der eigentliche Erfolg von Information Science zunichte gemacht, da die Prinzipien, die mit so großem Erfolg angewendet wurden, auf sie zurückgeführt werden Daten auf der Suche nach einem Wertversprechen auf den Sandbänken dieser falschen Dogmen auf Grund laufen, wenn sie auf a angewendet werden Wertversprechen auf der Suche nach Daten.

Daten sind nicht der einzige natürliche Ausgangspunkt für Analysen

Für die Analyse von Phänomenen mit dem Ziel, Schlussfolgerungen zu ziehen oder Erklärungen zu liefern, sind hypothetische Erklärungen ein hervorragender Ausgangspunkt.

Für die Entscheidungsfindung sind die Ziele, die Sie erreichen möchten, und die Entscheidungshebel, mit denen Sie diese Ziele erreichen möchten, der natürliche Ausgangspunkt und bei weitem der beste Ausgangspunkt.

In beiden Fällen spielen Daten eine wichtige Rolle, da sie mögliche Erklärungen motivieren und die Zusammenhänge zwischen Entscheidungen und Daten vermitteln, aber die Beziehung ist ein Dialog und keine lineare Abfolge, die mit Daten beginnt.

Die Daten sind nicht unparteiisch

Die Auswahl der Daten setzt zwangsläufig Relevanz voraus. Aber ohne ein gewisses Maß an Engagement für eine vorausgesetzte Erklärung oder ein Modell, das die Daten mit dem vorliegenden Downside verbindet, können wir nicht wissen, was related ist und was nicht.

Die Verarbeitung und Bereinigung von Daten unterliegt derselben Notwendigkeit; Sie können nicht wissen, was ein Sign und was ein Rauschen ist, ohne eine gewisse Erwartung hinsichtlich der endgültigen Bedeutung der Daten zu haben, was Sie Ihrer Meinung nach sagen werden und wie sie sich auf das vorliegende Downside auswirken könnten.

Es gibt keine Daten ohne Vermutung. Die Vorstellung einer objektiven Tatsache ist eine Chimäre, weil die Darstellung dieses Datums als Tatsache bereits eine Bindung an eine mehr oder weniger verborgene Vermutung verrät, die die Auswahl und Darstellung genau dieses Datums überhaupt erst motiviert hat.

Die Daten reichen nicht unbedingt aus

Wir lassen uns bei der Auswahl der Daten nicht nur stillschweigend von unseren unterdrückten Vermutungen leiten, sondern haben auch keine Möglichkeit zu wissen, ob die von uns gesammelten Daten für das Verständnis oder die Lösung der vorliegenden Probleme am relevantesten sind, wenn wir versuchen, Erklärungen zu zensieren. Und wir verfügen über keinen Mechanismus, um die Suche nach weiteren Daten zu motivieren, die eine Bestätigung, Widerlegung oder weitere Erkenntnisse liefern könnten.

Daten sagen nichts, geschweige denn erklären sie

Niemand hat jemals einen Bericht über einen objektiven, transparenten Prozess gegeben, geschweige denn über einen deduktiven Prozess, durch den eine Anhäufung von Daten eine erklärende Theorie, ein Modell oder eine Hypothese generiert.

Daten sprechen nicht. Wir können Daten nicht einmal interpretieren, ohne auf einen theoretischen Kontext zurückzugreifen.

Dieser Wunsch nach unparteiischen Daten (aus denen zwangsläufig Modelle und Erklärungen hervorgehen sollten) entspringt der Angst vor einer wohlüberlegten Auswahl und Verzerrung von Daten im Dienste einer Lieblingstheorie oder einer versteckten Absicht. Hier ist Karl Popper

… Wenn wir unkritisch sind, werden wir immer finden, was wir wollen: Wir werden nach Bestätigung suchen und sie finden, und wir werden wegschauen und nichts sehen, was auch immer für unsere Lieblingstheorien gefährlich sein könnte. Auf diese Weise ist es nur allzu einfach, scheinbar überwältigende Beweise für eine Theorie zu erhalten …

Doch wie Popper weiter argumentiert, löst der vergebliche Versuch, Daten unparteiisch zu sammeln, nicht das Downside der Objektivität. Im besten Fall sind wir so voreingenommen wie eh und je, aber – überzeugt von unserer eigenen guten Datenhygiene – haben wir uns selbst davon überzeugt, dass wir es nicht sind. Im schlimmsten Fall lernen wir, das Sammeln von Daten und die Generierung von Hypothesen zu manipulieren, und stellen den Prozess als impartial und unparteiisch dar, in einer geheimen, betrügerischen Knechtschaft mit versteckten Absichten und Lieblingstheorien. In jedem Fall ist die Theoriebildung bei der Entdeckung, Auswahl und Präsentation von Daten unerlässlich.

Poppers Lösung besteht darin, die Objektivität durch die Vermutung mehrerer erklärender Hypothesen sicherzustellen und dann die Diskussion der Objektivität auf die Beurteilung eines kritischen Wettbewerbs zwischen diesen Vermutungen zu verlagern.

Die Artwork und Weise, wie Wissen und insbesondere unser wissenschaftliches Wissen voranschreiten, erfolgt durch ungerechtfertigte (und ungerechtfertigte) Antizipationen, durch Vermutungen, durch vorläufige Lösungen unserer Probleme, durch Vermutungen. Diese Vermutungen werden durch Kritik kontrolliert …

Die Abkehr von der Vorstellung, dass Daten „sprechen“, gibt uns die Freiheit, kreativ zu spekulieren, und bringt Hypothesen wieder an ihren rechtmäßigen Platz, in einen Dialog mit Daten, anstatt ihnen unterworfen zu sein.

Daten motivieren zu vielfältigen Vermutungen. Der Versuch, zwischen diesen zu unterscheiden, leitet uns bei der Auswahl von Daten und motiviert die Suche und Entdeckung neuer Daten. Diese stellen wiederum die Qualität unserer Vermutungen in einem kritischen Diskurs auf die Probe. Hypothesen werden verfeinert, abgelehnt, bestätigt, widerlegt; aber nie bewiesen und auch nie – schade um Popper – endgültig gefälscht. Wir lernen, mit dieser Kontingenz zu leben.

Daten sind notwendigerweise die Knotenpunkte, an denen sich unsere Vermutungen mit der Welt überschneiden. Sie sind für die Beurteilung zwischen Theorien von wesentlicher Bedeutung und wir müssen alles in unserer Macht Stehende tun, um sicherzustellen, dass sie nicht absichtlich verfälscht oder unterdrückt werden. Indem wir jedoch den Schwerpunkt unseres Strebens nach Objektivität auf den Wettbewerb zwischen mehreren Vermutungen verlagern, befreien wir Daten von der Phantasm der Unabhängigkeit und eröffnen eine viel reichhaltigere und fruchtbarere Beziehung zwischen Hypothesen und den Daten, die sie inspirieren und regulieren.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here