5 Möglichkeiten, interessante Datensätze für Ihr nächstes Datenprojekt zu erhalten (nicht Kaggle) | von Matt Chapman | Juni 2023

0
25


Gelangweilt von Kaggle und FiveThirtyEight? Hier sind die alternativen Strategien, die ich verwende, um qualitativ hochwertige und einzigartige Datensätze zu erhalten

Bild von Efe Kurnaz An Unsplash

Der Schlüssel zu einem großartigen Knowledge-Science-Projekt ist ein großartiger Datensatz, aber das Finden großartiger Daten ist viel leichter gesagt als getan.

Ich erinnere mich an die Zeit, als ich vor etwas mehr als einem Jahr meinen Grasp in Knowledge Science machte. Während des gesamten Kurses habe ich festgestellt, dass es einfacher ist, Projektideen zu entwickeln – das conflict es auch gute Datensätze finden mit denen ich am meisten zu kämpfen hatte. Ich verbrachte Stunden damit, das Web zu durchforsten, mir die Haare auszureißen, auf der Suche nach interessanten Datenquellen, kam aber nicht weiter.

Seitdem habe ich in meinem Ansatz große Fortschritte gemacht und möchte Ihnen in diesem Artikel die 5 Strategien vorstellen, die ich zum Auffinden von Datensätzen verwende. Wenn Ihnen Standardquellen wie Kaggle und FiveThirtyEight langweilig sind, können Sie mit diesen Strategien Daten erhalten, die einzigartig und viel besser auf die spezifischen Anwendungsfälle zugeschnitten sind, die Sie sich vorstellen.

Ja, ob Sie es glauben oder nicht, das ist tatsächlich eine legitime Strategie. Es hat sogar einen ausgefallenen technischen Namen („Synthetische Datengenerierung“).

Wenn Sie eine neue Idee ausprobieren oder sehr spezifische Datenanforderungen haben, ist die Erstellung synthetischer Daten eine fantastische Möglichkeit, originelle und maßgeschneiderte Datensätze zu erhalten.

Angenommen, Sie versuchen, ein Modell zur Abwanderungsvorhersage zu erstellen – ein Modell, das vorhersagen kann, wie wahrscheinlich es ist, dass ein Kunde ein Unternehmen verlässt. Abwanderung ist ein ziemlich häufiges „Betriebsproblem“, mit dem viele Unternehmen konfrontiert sind, und die Lösung eines solchen Issues ist eine großartige Möglichkeit, Personalvermittlern zu zeigen, dass Sie ML zur Lösung kommerziell relevanter Probleme nutzen können, wie ich bereits dargelegt habe:

Wenn Sie jedoch on-line nach „Abwanderungsdatensätzen“ suchen, werden Sie feststellen, dass (zum Zeitpunkt des Verfassens dieses Artikels) nur zwei Hauptdatensätze offensichtlich für die Öffentlichkeit verfügbar sind: der Datensatz zur Abwanderung von Bankkundenund das Datensatz zur Abwanderung von Telekommunikationsunternehmen. Diese Datensätze sind ein fantastischer Ausgangspunkt, spiegeln jedoch möglicherweise nicht die Artwork von Daten wider, die für die Modellierung der Abwanderung in anderen Branchen erforderlich sind.

Stattdessen könnten Sie versuchen, synthetische Daten zu erstellen, die besser auf Ihre Anforderungen zugeschnitten sind.

Wenn das zu schön klingt, um wahr zu sein, hier ist ein Beispieldatensatz, den ich mit nur einer kurzen Eingabeaufforderung an den alten Hasen ChatGPT erstellt habe:

Bild vom Autor

Natürlich ist ChatGPT hinsichtlich der Geschwindigkeit und Größe der Datensätze, die es erstellen kann, begrenzt. Wenn Sie diese Technik additionally hochskalieren möchten, würde ich die Verwendung einer der Python-Bibliotheken empfehlen faker oder scikit-learn’s sklearn.datasets.make_classification Und sklearn.datasets.make_regression Funktionen. Diese Instruments sind eine fantastische Möglichkeit, im Handumdrehen große Datensätze programmgesteuert zu generieren, und eignen sich perfekt für die Erstellung von Proof-of-Idea-Modellen, ohne lange nach dem perfekten Datensatz suchen zu müssen.

In der Praxis musste ich zum Generieren selten synthetische Datenerstellungstechniken verwenden gesamte Datensätze (und wie ich später erklären werde, sollten Sie Vorsicht walten lassen, wenn Sie dies beabsichtigen). Stattdessen finde ich, dass dies eine wirklich nette Technik zum Generieren kontroverser Beispiele oder zum Hinzufügen von Rauschen zu Ihren Datensätzen ist, die es mir ermöglicht, die Schwächen meiner Modelle zu testen und robustere Versionen zu erstellen. Aber unabhängig davon, wie Sie diese Technik anwenden, ist es ein unglaublich nützliches Werkzeug, das Ihnen zur Verfügung steht.

Das Erstellen synthetischer Daten ist eine gute Lösung für Situationen, in denen Sie die Artwork von Daten, nach denen Sie suchen, nicht finden können, das offensichtliche Drawback jedoch darin besteht, dass Sie keine Garantie dafür haben, dass die Daten eine gute Darstellung realer Bevölkerungsgruppen sind.

Wenn Sie sicherstellen möchten, dass Ihre Daten realistisch sind, können Sie dies am besten tun, indem Sie überraschen …

… um tatsächlich welche zu finden actual Daten.

Eine Möglichkeit hierfür besteht darin, sich an Unternehmen zu wenden, die möglicherweise über solche Daten verfügen, und zu fragen, ob sie daran interessiert wären, einige mit Ihnen zu teilen. Auch wenn ich das Offensichtliche sage: Kein Unternehmen wird Ihnen Daten zur Verfügung stellen, die hochsensibel sind oder wenn Sie planen, diese für kommerzielle oder unethische Zwecke zu verwenden. Das wäre einfach nur dumm.

Wenn Sie jedoch beabsichtigen, die Daten für Forschungszwecke zu nutzen (z. B. für ein Universitätsprojekt), werden Sie möglicherweise feststellen, dass Unternehmen offen für die Bereitstellung von Daten sind, wenn diese im Rahmen eines Projekts erfolgen Gegenleistung gemeinsame Forschungsvereinbarung.

Was meine ich damit? Eigentlich ist es ganz einfach: Ich meine eine Vereinbarung, bei der sie Ihnen einige (anonymisierte/desensibilisierte) Daten zur Verfügung stellen und Sie diese Daten für die Durchführung von Forschungsarbeiten verwenden, die für sie von Nutzen sind. Wenn Sie sich beispielsweise für die Abwanderungsmodellierung interessieren, könnten Sie einen Vorschlag zum Vergleich verschiedener Abwanderungsvorhersagetechniken zusammenstellen. Teilen Sie den Vorschlag dann einigen Unternehmen mit und fragen Sie, ob Potenzial für eine Zusammenarbeit besteht. Wenn Sie hartnäckig sind und ein weites Netz auswerfen, werden Sie wahrscheinlich ein Unternehmen finden, das bereit ist, Daten für Ihr Projekt bereitzustellen solange Sie Ihre Erkenntnisse mit ihnen teilen damit sie einen Nutzen aus der Forschung ziehen können.

Wenn das zu schön klingt, um wahr zu sein, werden Sie vielleicht überrascht sein, das zu hören Genau das habe ich während meines Masterstudiums gemacht. Ich kontaktierte einige Unternehmen mit einem Vorschlag, wie ich ihre Daten für Forschungszwecke nutzen könnte, von denen sie profitieren würden, unterschrieb einige Unterlagen, um zu bestätigen, dass ich die Daten nicht für andere Zwecke verwenden würde, und führte ein wirklich unterhaltsames Projekt durch einige reale Daten. Es ist wirklich machbar.

Das andere, was mir an dieser Strategie besonders gefällt, ist, dass sie eine Möglichkeit bietet, ein recht breites Spektrum an Fähigkeiten zu trainieren und zu entwickeln, die in der Datenwissenschaft wichtig sind. Sie müssen intestine kommunizieren, kommerzielles Bewusstsein zeigen und ein Profi im Umgang mit den Erwartungen der Stakeholder werden – alles wichtige Fähigkeiten im täglichen Leben eines Datenwissenschaftlers.

Bitte lassen Sie mich Ihre Daten haben. Ich werde ein guter Junge sein, das verspreche ich! Bild von Nayeli Rosales An Unsplash

Viele Datensätze, die in akademischen Studien verwendet werden, werden nicht auf Plattformen wie Kaggle veröffentlicht, sind aber dennoch öffentlich für die Nutzung durch andere Forscher verfügbar.

Eine der besten Möglichkeiten, solche Datensätze zu finden, besteht darin, in den Repositories zu suchen, die mit Artikeln in Fachzeitschriften verknüpft sind. Warum? Denn viele Zeitschriften verlangen von ihren Mitwirkenden, dass sie die zugrunde liegenden Daten öffentlich zugänglich machen. Zum Beispiel zwei der Datenquellen, die ich während meines Masterstudiums verwendet habe (die Fragile Familien Datensatz und die Daten zu Hassreden Web site) waren auf Kaggle nicht verfügbar; Ich habe sie durch wissenschaftliche Arbeiten und die dazugehörigen Code-Repositories gefunden.

Wie können Sie diese Repositories finden? Es ist eigentlich überraschend einfach – ich beginne damit, mich zu öffnen paperswithcode.com, suche nach Artikeln in dem Bereich, der mich interessiert, und schaue mir die verfügbaren Datensätze an, bis ich etwas finde, das interessant aussieht. Meiner Erfahrung nach ist dies eine wirklich gute Möglichkeit, Datensätze zu finden, die nicht von der Masse auf Kaggle zerstört wurden.

Ehrlich gesagt habe ich keine Ahnung, warum nicht mehr Menschen öffentliche BigQuery-Datensätze nutzen. Es gibt sie im wahrsten Sinne des Wortes Hunderte von Datensätzen, die alles abdecken, von Google-Suchtrends über Fahrradverleih in London bis hin zur genomischen Sequenzierung von Hashish.

Was mir an dieser Quelle besonders gefällt, ist, dass viele dieser Datensätze unglaublich kommerziell related sind. Sie können sich von akademischen Nischenthemen wie Blumenklassifizierung und Ziffernvorhersage verabschieden; In BigQuery gibt es Datensätze zu realen Geschäftsthemen wie Anzeigenleistung, Web site-Besuchen und Wirtschaftsprognosen.

Viele Menschen schrecken vor diesen Datensätzen zurück, weil zum Laden SQL-Kenntnisse erforderlich sind. Aber selbst wenn Sie sich nicht mit SQL auskennen und nur eine Sprache wie Python oder R beherrschen, empfehle ich Ihnen dennoch, sich ein oder zwei Stunden Zeit zu nehmen, um einige grundlegende SQL-Kenntnisse zu erlernen und dann mit der Abfrage dieser Datensätze zu beginnen. Es dauert nicht lange, bis es betriebsbereit ist, und dies ist wirklich eine Fundgrube an hochwertigen Datenbeständen.

Um die Datensätze in BigQuery Public Datasets zu verwenden, können Sie sich für ein völlig kostenloses Konto anmelden und ein Sandbox-Projekt erstellen, indem Sie den Anweisungen folgen Hier. Sie müssen keine Kreditkartendaten oder ähnliches eingeben – nur Ihren Namen, Ihre E-Mail-Adresse, ein paar Informationen zum Projekt und schon kann es losgehen. Wenn Sie zu einem späteren Zeitpunkt mehr Rechenleistung benötigen, können Sie das Projekt auf ein kostenpflichtiges aktualisieren und auf die Rechenressourcen und erweiterten BigQuery-Funktionen von GCP zugreifen. Ich persönlich musste dies jedoch nie tun und fand die Sandbox mehr als ausreichend .

Mein letzter Tipp ist, es mit einer Datensatzsuchmaschine zu versuchen. Dabei handelt es sich um unglaubliche Instruments, die erst in den letzten Jahren auf den Markt gekommen sind und die es sehr einfach machen, schnell zu erkennen, was da draußen ist. Drei meiner Favoriten sind:

Meiner Erfahrung nach kann die Suche mit diesen Instruments eine viel effektivere Strategie sein als die Verwendung allgemeiner Suchmaschinen, da Ihnen häufig Metadaten zu den Datensätzen zur Verfügung gestellt werden und Sie die Möglichkeit haben, sie nach der Häufigkeit ihrer Verwendung und der Veröffentlichung zu ordnen Datum. Ein ziemlich raffinierter Ansatz, wenn Sie mich fragen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here