Schlechte Datenqualität kann viele Formen annehmen, von unvollständigen oder fehlenden Daten bis hin zu Fehlern und Inkonsistenzen in den Daten selbst. Das Arbeiten mit ungenauen oder unvollständigen Daten ist wie das Zähneputzen mit Schokoladenzahnpasta; Vielleicht fühlt es sich zunächst intestine an, aber später werden Sie bestimmt mit einer Karieskrise konfrontiert sein! Egal wie ausgefeilt Ihre Algorithmen oder wie elegant Ihre Visualisierungen sind, die Ergebnisse, die Sie erhalten, werden unzuverlässig und möglicherweise irreführend sein. Um es ganz klar auszudrücken: tAusschlag rein, Müll raus.
„KI beim Zahnarzt“, generiert von Dall-E2.
Daten sind die Grundlage von Information Science und ihre Qualität kann einen erheblichen Einfluss auf die Leistung der Ergebnisse haben, die durch ein maschinelles Lernmodell und eine Datenanalyse erzielt werden. Die Sorge um die Datenqualität ist jedoch keine glamouröse oder aufregende Aufgabe, sondern vielmehr eine herausfordernde Aufgabe, die Aufmerksamkeit, Geduld und einen Blick für langfristige Bedürfnisse erfordert. Es handelt sich um einen kollaborativen Prozess zwischen Groups und oft auch abteilungsübergreifend.
In diesem Blogbeitrag diskutieren wir einige Beispiele dafür, wie wichtig Datenqualität ist, und stellen einige Beispiele für schlechte Datenqualität vor, wobei wir uns auf die möglichen Folgen konzentrieren.
1. Unvollständige Daten.
Eines der häufigsten Probleme bei der Datenqualität sind unvollständige Informationen. Wenn wir beispielsweise Änderungen bei den aktivierten Zahlungsmethoden für unsere Händler vorhersagen möchten, benötigen wir Daten, die nicht nur enthalten, welche Zahlungsmethoden derzeit aktiv sind, sondern auch, wie sie sich im Laufe der Zeit verändert haben. Auch wenn dem Händler Empfehlungen für neue Zahlungsmethoden gegeben würden, möchten wir diese Daten im Auge behalten. Wenn nur aktive Zahlungsmethoden erfasst werden, kann die Analyse verzerrt sein und zu falschen Aktionen führen.
Zurück zur Metapher unserer Zähne; Angenommen, wir untersuchen die Auswirkungen auf Ernährung und Zähne. Patienten werden zu uns überwiesen, wenn sie schlechte Zähne haben. Zu diesem Zeitpunkt sammeln wir Informationen über ihren Lebensstil und ihre Ernährung. In dieser Scenario verpassen wir etwas Wichtiges, wir vermissen Informationen darüber, was eine gesunde Ernährung ist und wie gesunde Zähne quantifiziert werden können. Zusammenfassend lässt sich sagen, dass es wichtig ist, sowohl constructive als auch unfavourable Situationen zu berücksichtigen, wenn festgelegt wird, wie Daten erfasst werden sollen.
2. Inkonsistente Daten.
Inkonsistente Daten beziehen sich auf uneinheitliche Daten aus verschiedenen Quellen oder Prozessen. Dies kann auftreten, wenn Daten aus mehreren Quellen erfasst werden, automatisierte und manuelle Eingaben kombiniert werden oder die Datenerfassungsmethoden im Laufe der Zeit geändert werden. Obwohl dies häufig vorkommt, ist es wichtig, die Auswirkungen auf die Datenanalyse zu berücksichtigen.
Beispielsweise kann ein Kontoschließungsprozess Gründe wie „über das Dashboard“, „Händleranfrage: E-Mail/Anruf/persönlich“, „Schließung des Händlerkontos“ usw. dokumentieren. Obwohl alle auf eine vom Händler initiierte Schließung hinweisen, führt eine inkonsistente Formatierung zu Problemen Definieren und Verstehen dieser Daten. Dies wird zu einem noch größeren Downside, wenn die Dokumentation zu jedem Kontogrund fehlt und es dadurch möglich ist, dass es mehrere Interpretationen des Grundes gibt. Wann immer möglich, ist es wichtig, diese klar zu definieren und zu dokumentieren. Wenn wesentliche Änderungen vorgenommen werden, kann es sich lohnen, über die Erstellung einer separaten Spalte oder eines separaten Prozesses nachzudenken, der diese Daten sammelt und speichert, um Inkonsistenzen zu vermeiden.
3. Geschichte neu schreiben
Prozesse, die historische Daten verändern, können unbeabsichtigte Folgen haben, die schwer zu erkennen sind. Sie verursachen stille, aber schwerwiegende Folgen. Stellen Sie sich ein Hauptbuch vor, das die Händlerkonten an einem Marktplatz sowie deren Salden verfolgt. Gelegentlich können sich historische Informationen zu diesem Hauptbuch aufgrund eines Abschreibungsereignisses ändern, um alte Konten mit negativem Saldo zu beseitigen. In solchen Fällen werden constructive Salden zu Konten addiert, deren Salden auf 0 zurückgehen. Wenn dieser Prozess nicht sorgfältig durchgeführt wird, kann es sein, dass die Vergangenheit neu geschrieben wird, was zu Problemen beim Verständnis führt, warum ein Händler einen negativen Saldo hatte, und möglicherweise wertvolle Informationen weglässt, die zur Betrugsprävention verwendet werden können .
4. Mangelnde Dokumentation
Es ist wichtig zu überlegen, was Daten bedeuten. Damit die Daten nützlich sind, müssen sie mit einer Dokumentation versehen sein. Jedes Feld sollte eine Beschreibung haben, die seinen Zweck und seine Bedeutung detailliert beschreibt. Ohne diese Informationen wird es schwierig, sie zu nutzen.
Stellen Sie sich vor, Sie arbeiten mit einer großen Kundendatenbank, die verschiedene Spalten wie „Title“, „E-Mail“, „Alter“ und „Kaufhistorie“ enthält. Für eine genaue Analyse ist es entscheidend, die Definition jeder Spalte zu verstehen. Wird die Spalte „Alter“ in Jahren oder Monaten dargestellt? Was bedeutet es, wenn „Alter“ negativ, 0 oder fehlend ist? Werden in der Spalte „Kaufhistorie“ einzelne Transaktionen oder aggregierte Daten erfasst? Ohne Klarheit dieser Definitionen könnten alle aus den Daten gezogenen Schlussfolgerungen irreführend oder falsch sein.
Ebenso ist es für die Datenintegration und -analyse von entscheidender Bedeutung, zu verstehen, wie Tabellensätze basierend auf ihren IDs interagieren oder sich zueinander verhalten. Nehmen wir an, Sie haben eine Kundentabelle und eine Auftragstabelle, die beide über eine eindeutige Kennungsspalte namens „customer_id“ verfügen. Wenn Sie die Beziehung zwischen diesen Tabellen kennen, können Sie sie in der Spalte „customer_id“ zusammenführen, um wertvolle Erkenntnisse zu gewinnen, z. B. die Analyse des Kaufverhaltens anhand der Kundendemografie oder die Identifizierung der treuesten Kunden. Wenn dieser Spalte jedoch der Title „id“ gegeben wird, kann sie auf die ID eines anderen Programs hinweisen, das diesen Begriff ebenfalls verwendet. Gehen Sie bei der Dokumentation und Beschreibung von Daten nach Möglichkeit explizit vor.
Intestine dokumentierte Daten ermöglichen eine unabhängige und asynchrone Nutzung der Daten. Ohne es, Erwarten Sie längere Conferences, mehr Fehler und Überraschungen!
In manchen Situationen dauert es Jahre, qualitativ hochwertige Daten zu Betrug, Abwanderung und anderen seltenen Ereignissen zu sammeln. Beispielsweise können wir davon ausgehen, dass von 100 beobachteten Transaktionen weniger als 1 Prozent ein Betrugsfall sein wird. Folglich dauert es Jahre, in diesem Zusammenhang eine gute Darstellung des Betrugs zu sammeln. Daher ist es wichtig zu planen, um bei der Betrachtung der Datenqualität das langfristige Bild im Auge zu behalten.
Kurz gesagt, Datenqualität ist eine wesentliche Arbeit für Information Science, Analyse und für fundierte, evidenzbasierte Geschäftsentscheidungen. Unvollständige und inkonsistente Daten sind nur einige Beispiele für schlechte Datenqualität. Während die Arbeit, qualitativ hochwertige Daten zu speichern, nicht so glamourös ist wie künstliche Intelligenz und große Sprachnetzwerke, sind ihre Konsequenzen es doch actual. Algorithmen für maschinelles Lernen sind leistungsstark und in der Lage, viele Informationen schnell zu lernen. Aber all das geht verloren, wenn die Daten selbst nicht von guter Qualität sind.
So wie Sie das Zähneputzen nicht auslassen würden, auch wenn es nicht die aufregendste Aufgabe ist, sollten Sie auch die Datenqualität nicht vernachlässigen, wenn Sie in Ihren Information-Science-Projekten genaue und zuverlässige Ergebnisse erzielen möchten. Es ist vielleicht nicht glamourös, aber es ist wichtig. Die Verwaltung und Bereinigung von Daten über längere Zeiträume ist ein entscheidendes Component für die Wertschöpfung.
Was denkt Ihr Crew über die Datenqualität?