Quick alle maschinellen Lernaufgaben hängen von Daten in der einen oder anderen Kind ab. Um qualitativ hochwertige Daten zu generieren, benötigen Information-Science-Groups einen einfachen Zugriff auf Daten und ein klares Verständnis aller Datenbestände. Die Datenqualität ist für den erfolgreichen Einsatz maschineller Lernmodelle von entscheidender Bedeutung.
Bei Provectus verstehen wir das die Bedeutung qualitativ hochwertiger Daten. In unserem Information High quality Framework verwenden wir eine Kombination aus Pandas Profiling (PP), um statistische Informationen über Daten zu sammeln, und Große Erwartungen (GX) um es zu testen. Die Fähigkeit von Pandas Profiling, aus den Profilierungsergebnissen spontan Erwartungen zu generieren, struggle für unser Daten-QA-Group eine angenehme Überraschung. Sie müssen nur eine Codezeile hinzufügen, um die Magie zu verwirklichen.
Als Information High quality Engineer verwende ich diese Kombination schon seit einiger Zeit. Mit der GX V3-API ist jedoch klar geworden, dass es höchste Zeit ist, GX zu aktualisieren. Der letzte Hinweis für uns struggle, als wir beschlossen, PP zu aktualisieren und feststellten, dass Pandas Profiling nicht mehr existierte – es heißt jetzt Ydata-Profiling (YP). Mit der Namensänderung gingen verschiedene neue Funktionen einher, beispielsweise vergleichende Profilierungsberichte und Spark-Unterstützung. Ironischerweise wurden auch einige Einschränkungen eingeführt, von denen die kritischste die Unfähigkeit struggle, Erwartungen zu wecken.
In diesem Beitrag erkläre ich, wie Sie diese Einschränkungen beheben und beheben können.
Notiz: Die vorherigen Versionen, die wir verwendet haben, waren ziemlich alt: great-expectations==0.14.1 und pandas-profiling==3.1.0.