Welche Möglichkeiten haben Sie, wenn Sie mit Daten arbeiten möchten? Hier eine möglichst grobe Antwort: Man könnte an echte Daten gelangen, oder man könnte an gefälschte Daten gelangen.
In mein vorheriger Artikel, haben wir uns mit dem Konzept der synthetischen Daten angefreundet und den Denkprozess rund um deren Erstellung besprochen. Wir haben echte Daten, verrauschte Daten und handgefertigte Daten verglichen. Werfen wir einen Blick auf die Artwork synthetischer Daten, die ausgefallener ist, als einen Menschen zu bitten, eine Zahl auszuwählen, eine beliebige Zahl …
(Hinweis: Die Hyperlinks in diesem Beitrag führen Sie zu Erklärungen desselben Autors.)
Doppelte Daten
Vielleicht haben Sie 10.000 reale menschliche Körpergrößen gemessen, möchten aber 20.000 Datenpunkte. Ein Ansatz, den Sie wählen, besteht darin, anzunehmen, dass Ihr vorhandener Datensatz Ihre Bevölkerung bereits ziemlich intestine repräsentiert. (Annahmen sind immer gefährlich, gehen Sie vorsichtig vor.) Dann können Sie einfach den Datensatz oder einen Teil davon mit der altbewährten Kopier- und Einfügemethode duplizieren. Ta-da! Mehr Daten! Aber ist es Intestine und nützlich Daten? Das kommt immer darauf an, wofür man es braucht. In den meisten Situationen wäre die Antwort nein. Aber hey, es gibt Gründe, warum man mit einem Kopf geboren wurde, und diese Gründe sind, zu kauen und sein bestes Urteilsvermögen anzuwenden.
Neu abgetastete Daten
Apropos Duplizieren nur eines Teils Ihrer Daten: Es gibt eine Möglichkeit, einen Zufallspunkt einzufügen, der Ihnen dabei hilft, das herauszufinden welche Portion zum Auswählen. Sie können a verwenden Zufallszahlengenerator um Ihnen bei der Auswahl der gewünschten Höhe aus Ihrer vorhandenen Höhenliste zu helfen. Du könntest das tun“ohne Ersatz“, was bedeutet, dass Sie von jeder vorhandenen Höhe höchstens eine Kopie erstellen, aber…
Bootstrapping-Daten
Sie werden häufiger Leute sehen, die dies tun.mit Ersatz“, was bedeutet, dass Sie jedes Mal, wenn Sie zufällig eine Höhe zum Kopieren auswählen, sofort vergessen, dass Sie dies getan haben, sodass dieselbe Höhe als zweite, dritte, vierte usw. Kopie in Ihren Datensatz gelangen kann. Wenn das Interesse an den Kommentaren groß genug ist, erkläre ich vielleicht, warum dies eine mächtige und effektive Technik (ja, das klingt zunächst wie Hexerei, das dachte ich auch) für die Bevölkerungsinduktion ist.
Erweiterte Daten
Erweiterte Daten klingen vielleicht ausgefallen, und es *gibt* ausgefallene Möglichkeiten, Daten zu erweitern, aber wenn Sie diesen Begriff sehen, bedeutet das normalerweise, dass Sie Ihre neu abgetasteten Daten genommen und ihnen zufälliges Rauschen hinzugefügt haben. Mit anderen Worten, Sie generiert eine Zufallszahl aus a statistische Verteilung und normalerweise haben Sie es einfach zum neu abgetasteten Datenpunkt hinzugefügt. Das ist es. Das ist die Erweiterung.
Überabgetastete Daten
Apropos Duplizieren nur eines Teils Ihrer Daten: Es gibt eine Möglichkeit, gezielt bestimmte Merkmale gegenüber anderen hervorzuheben. Vielleicht haben Sie Ihre Messungen auf einer typischen KI-Konferenz vorgenommen, sodass die Körpergröße von Frauen in Ihren Daten unterrepräsentiert ist (traurig, aber wahr heutzutage). Das nennt man das Drawback unausgeglichene Daten. Es gibt Techniken, um die Darstellung dieser Merkmale neu auszubalancieren, wie z SMOTE (Artificial Minority Oversampling TEchnique), was ungefähr das ist, wonach es sich anhört. Der naivste Weg, das Drawback zu lösen, besteht darin, das Resampling einfach auf die Minderheitsdatenpunkte zu beschränken und die anderen zu ignorieren. In unserem Beispiel würden Sie additionally einfach die weiblichen Körpergrößen neu berechnen und dabei die anderen Daten ignorieren. Sie könnten auch eine anspruchsvollere Vergrößerung in Betracht ziehen und Ihre Bemühungen dennoch auf die weibliche Körpergröße beschränken.
Wenn Sie noch ausgefallener werden möchten, suchen Sie nach Techniken wie ADASYN (Adaptive Artificial Sampling) und folgen Sie den Brotkrumen auf einer Spur, die für eine kurze Einführung in dieses Thema den Rahmen sprengt.
Randfalldaten
Sie könnten auch (handgefertigte) Daten erstellen, die völlig anders sind als alles, was Sie (oder irgendjemand) jemals gesehen haben. Dies wäre eine sehr dumme Sache, wenn Sie damit Modelle der realen Welt erstellen wollten, aber es ist intelligent, wenn Sie damit beispielsweise die Fähigkeit Ihres Methods testen, mit seltsamen Dingen umzugehen. Um ein Gefühl dafür zu bekommen, ob Ihr Modell/Ihre Theorie/Ihr System erstickt, wenn es auf einen Ausreißer trifft, können Sie absichtlich synthetische Ausreißer erstellen. Gehen Sie voran, stellen Sie eine Höhe von 3 Metern ein und sehen Sie, was explodiert. Ein bisschen wie eine Feuerwehrübung am Arbeitsplatz. (Lassen Sie kein tatsächliches Feuer im Gebäude oder einen tatsächlichen Monster-Ausreißer in Ihrem Datensatz.)
Simulierte Daten
Sobald Sie sich mit der Idee vertraut gemacht haben, Daten gemäß Ihren Spezifikationen zusammenzustellen, möchten Sie vielleicht noch einen Schritt weiter gehen und ein Rezept erstellen, um die zugrunde liegende Natur der Artwork von Daten zu beschreiben, die Sie in Ihrem Datensatz haben möchten. Wenn es eine Zufallskomponente gibt, simulieren Sie tatsächlich anhand einer statistischen Verteilung, die es Ihnen ermöglicht, die Kernprinzipien anzugeben, die durch ein Modell beschrieben werden (was nur eine ausgefallene Ausdrucksweise ist). „eine Formel, die Sie als Rezept verwenden werden“) mit einer Regel für die Funktionsweise der Zufallsbits. Anstatt zufälliges Rauschen zu einem vorhandenen Datenpunkt hinzuzufügen, wie es bei den Vanilla-Datenerweiterungstechniken der Fall ist, können Sie Rauschen zu einem von Ihnen erstellten Regelsatz hinzufügen, indem Sie entweder meditieren oder statistische Schlussfolgerungen mit einem zugehörigen Datensatz ziehen. Erfahren Sie mehr darüber Hier.
Höhen? Warten Sie, Sie fragen mich nach einem Datensatz mit jeweils nur einer Höhe? Wie langweilig! Wie… die Disketten-Ära von uns. Wir nennen das univariate Daten, und es ist heutzutage selten, dass sie in freier Wildbahn gesammelt werden.
Da wir jetzt über eine unglaubliche Speicherkapazität verfügen, können Daten in viel interessanteren und komplexeren Formen vorliegen. Es ist sehr günstig, sich neben den Höhen noch ein paar zusätzliche Eigenschaften zu besorgen, wenn wir schon dabei sind. Wir könnten beispielsweise die Frisur aufzeichnen und so unseren Datensatz bivariat machen. Aber warum hier aufhören? Wie sieht es auch mit dem Alter aus, additionally sind unsere Daten multivariat? Wie viel Spaß!
Aber heutzutage können wir wild werden und all das mit Bilddaten (ein Foto während der Höhenmessung machen) und Textdaten (dem Aufsatz, den sie darüber geschrieben haben, wie unnötig langweilig sie sind) kombinieren Statistikklasse Battle). Wir nennen diese multimodalen Daten und wir können synthetisieren Sie das zu! Wenn Sie mehr darüber erfahren möchten, lassen Sie es mich in den Kommentaren wissen.
Warum möchte jemand synthetische Daten erstellen? Es gibt gute Gründe, es zu lieben, und einige gute Gründe, es wie die Pest zu meiden (Artikel folgt in Kürze), aber wenn Sie ein Knowledge-Science-Experte sind, gehen Sie zu Dieser Artikel um herauszufinden, welcher Grund Ihrer Meinung nach Ihr Favorit sein sollte, es oft zu verwenden.
Wenn Sie hier Spaß hatten und nach einem kompletten Kurs für angewandte KI suchen, der sowohl Anfängern als auch Experten Spaß machen soll, dann ist hier der Kurs, den ich zu Ihrer Unterhaltung erstellt habe:
PS: Haben Sie schon einmal versucht, hier auf Medium mehr als einmal auf die Klatschtaste zu drücken, um zu sehen, was passiert? ❤️