Synthetische Daten sind, um es deutlich auszudrücken, Pretend-Daten. Im Sinne von Daten, die nicht wirklich von der stammen Bevölkerung Sie interessieren sich. (Bevölkerung ist ein Fachbegriff in Datenwissenschaftwas ich erkläre Hier.) Es ist Daten die Sie behandeln möchten als ob Es kam von dem Ort/der Gruppe, von der/dem du es gerne hättest. (Das struggle nicht der Fall.)
Synthetische Daten sind, um es deutlich auszudrücken, Pretend-Daten.
Künstliche Daten, synthetische Daten, gefälschte Daten, Und simulierte Daten sind allesamt Synonyme mit etwas unterschiedlicher Blütezeit als der Begriff du jour, tragen additionally poetische Konnotationen aus unterschiedlichen Epochen in sich. Heutzutage bevorzugen die coolen Youngsters das synthetische Daten Schlagwort, vielleicht weil Investoren davon überzeugt werden müssen, dass etwas Neues erfunden und nicht wiederentdeckt wurde. Und hier ist etwas etwas Neues im Spiel, aber (meiner Meinung nach) nicht neu genug, als dass alle alten Ideen irrelevant wären.
Lass uns eintauchen!
(Hinweis: Die Hyperlinks in diesem Beitrag führen Sie zu Erklärungen desselben Autors.)
Wenn Sie durch einen Graduiertenkurs gelitten haben Fortgeschrittene Wahrscheinlichkeits- und Maßtheorie So wie ich es getan habe (mein Therapeut und ich arbeiten noch über ein Jahrzehnt später daran), werden Sie sich überflüssigerweise darüber im Klaren sein, dass es unendlich viele gibt reale Nummern. Unter anderem, unendlich Das heißt, wenn Sie versuchen, sie alle aufzuzählen, kann ich wie ein Fool herbeistoßen und eine neue für Sie finden, indem ich zum Beispiel 1 zu Ihrer größten Zahl addiere, den Durchschnitt Ihrer beiden nächsten Zahlen nehme oder eine Ziffer auf der Rückseite einfüge der Zahl mit der längsten Ziffernfolge nach dem Komma.
Das bedeutet auch, dass ich, wenn Sie mir die Liste aller Zahlen geben, die im Laufe der Menschheitsgeschichte jemals von Menschen aufgezeichnet wurden, immer noch eine völlig neue erstellen kann. Growth! Die Macht.
Wohin soll ich damit gehen, abgesehen davon, dass ich Ihnen Stoff für Ihre nächste Bierdebatte darüber gebe, ob es so etwas wie echte Originalität gibt (ugh)?
Nehmen wir an, Sie haben einen Datensatz voller menschlicher Körpergrößen. Zwischen zwei beliebigen Maßen (z. B. 173 cm und 174 cm, dem Intervall, in dem Sie meine Körpergröße finden) gibt es unendlich viele Möglichkeiten für eine Zahl, die Sie aufschreiben können. Verlängern Sie einfach die Dezimalstelle immer weiter über die Möglichkeiten unserer Messgeräte hinaus. Jenseits subatomarer Teilchen. Jenseits des gesunden Menschenverstandes. Es gibt noch viele Zahlen, die ich mir ausdenken könnte, wie zum Beispiel: 173.4335524095820398502639008342984598739874944444438423975936458736495728502638944580928439563894795924895 86232342349832842849687394208287645545352525353353826482384724628732648732799999992323…
Die Regeln für die Erstellung dieser dummen Zahl sind gründlich dort draußen über den Bereich dessen hinaus, was nützlich und praktisch ist. Wenn Sie mich additionally bitten, Ihnen eine Zahl zu nennen, die eine menschliche Körpergröße darstellen könnte, die Sie Ihrem Datensatz hinzufügen könnten, wie könnte ich dann an Ihre Anfrage herangehen?
Daten aus der realen Welt
Eine Möglichkeit besteht darin, Ihnen echte Daten von einem echten Menschen zu geben. Ich schaue mich im Raum um und entdecke meine beste Freundin Heidekraut (wahre Geschichte, sie sagt Hallo) und messen Sie sie für Ihren Datensatz. Wenn Ihre interessierende Inhabitants ausschließlich aus Menschen besteht, wäre ihre Größe ein legitimer Datenpunkt für Ihren Datensatz, wenn (und das wäre groß, wenn) ich sie gemäß den Regeln gemessen hätte, die Sie für die Messung Ihrer Inhabitants aufgestellt haben.
Verrauschte Daten
Wenn ich Heathers Größe in Laptops (ich habe zu unserem Wochenendausflug leider kein Maßband mitgebracht) auf 13 Zoll genau messe, während Sie die Größe mit einem dieser Meterlineale in Millimetern gemessen haben, werden wir Probleme haben.
Wenn wir verrauschte Daten sagen, meinen wir, dass darin ein nichtdeterministischer Fehler steckt, der die wahre Antwort verbirgt. Und genau das wird passieren, wenn ich mir in den Kopf setze, Heather in Laptops zu messen. (Oder Smoots.)
In jede Messung, die Sie von mir erhalten, ist ein zufälliger Fehler eingebaut, der ein anderes Profil aufweist als die übrigen Daten. Um mit der Menge an Würmern umzugehen, die wir hier möglicherweise öffnen, stellen Sie sicher, dass Sie eine Aufzeichnung der Datenquelle beifügen. (Wer hat es gesammelt – Sie oder ich?) Sie können meine Einträge später jederzeit löschen … solange sie sich nicht unter Ihren legitimen Beiträgen verstecken.
Beim Sammeln von Daten aus der realen Welt kommt es überraschend leicht zu Fehlern. Weitere Informationen finden Sie in meiner Serie zum Thema Datendesign und Datenerfassung:
Handgefertigte Daten
Nehmen wir an, es struggle niemand zum Messen da, aber Sie wollten trotzdem einen anderen Datenpunkt? (Warum sollten Sie das tun und was sind die Vor- und Nachteile? Sehen Sie sich meinen nächsten Blogbeitrag an!)
Dann sagen Sie, dass Sie mit synthetischen Daten einverstanden sind. (Wenn Sie synthetische Daten in Ihrem Projekt zulassen, dokumentieren Sie immer, welche Datenpunkte synthetisch sind und wie sie erstellt wurden!)
Ich könnte Ihnen auch einen Höhendatenpunkt geben, indem ich eine Zahl erstelle, die keinerlei Regeln folgt. Wenn ich besonders pervers bin, schmeiße ich vielleicht sogar eine komplexe Zahl weg wie -5 + 60*Quadrat(-1) nur um dich zu verärgern. Hast du gesagt, ich könnte nicht? Du solltest. Wenn Sie mich etwas erfinden lassen, müssen Sie meine Kreativität einschränken.
Keine imaginären Zahlen? Okay, wie wäre es mit -100?
Oh, es muss im Bereich der tatsächlichen menschlichen Körpergröße liegen? Wie wäre es mit der Nummer 173.43355240… von früher?
Zu viele Nachkommastellen, weil menschliche Messgeräte nicht so empfindlich sind? Intestine, wie wäre es mit 173,5 cm?
Wir könnten das so nennen handgefertigte Datenda ich als Mensch darauf gekommen bin, indem ich ein Beispiel handgefertigt habe, das mich anspricht.
Was aber, wenn Sie mehr als eine neue Höhe für Ihren Datensatz wünschen? Und Sie raten mir, vernünftig zu sein und meine Entscheidungen auf den Millimeter zu runden?
Nun, ich könnte mir Folgendes einfallen lassen: 173,5 cm, 182,4 cm, 175,1 cm, 190,2 cm, 180,1 cm …
Dies sind alles believable menschliche Maße, aber sie sind eher groß. Sie repräsentieren Ihre Interessengruppe wahrscheinlich nicht sehr intestine. Sie sind voreingenommen von meinen Vorstellungen davon, wie gute Einträge in Ihrem Datensatz aussehen. Und was tun ICH Kennst du dich überhaupt mit menschlichen Körpergrößen aus? Du kann es besser machen.
Additionally lasst es uns besser machen Teil 2wo wir auf eine Reise gehen, die Folgendes umfasst:
- doppelte Daten
- neu abgetastete Daten
- Bootstrapping-Daten
- erweiterte Daten
- überabgetastete Daten
- Randfalldaten
- simulierte Daten
- univariate Daten
- bivariate Daten
- multivariate Daten
- multimodale Daten
Oder nutzen Sie hier einen meiner anderen Leitfäden zur Datentaxonomie:
Wenn Sie hier Spaß hatten und nach einem kompletten Kurs für angewandte KI suchen, der sowohl Anfängern als auch Experten Spaß machen soll, dann ist hier der Kurs, den ich zu Ihrer Unterhaltung erstellt habe:
PS: Haben Sie schon einmal versucht, hier auf Medium mehr als einmal auf die Klatschtaste zu drücken, um zu sehen, was passiert? ❤️