Der Prozess der Modellentwicklung ist von Natur aus unvorhersehbar und iterativ. Unternehmen, die dies nicht erkennen, werden Schwierigkeiten haben, wirksame KI-Strategien zu entwickeln. Tatsächlich ist die Modellentwicklung tendenziell der chaotischste Aspekt des Arbeitsablaufs, voller Experimente, Wiederholungen und häufiger Fehler. All diese Elemente sind für die Erforschung neuer Lösungen von entscheidender Bedeutung. Hier entsteht Innovation. Was brauchen Datenwissenschaftler additionally? Die Freiheit zum Experimentieren, zur Innovation und zur Zusammenarbeit.
Es besteht die vorherrschende Überzeugung, dass sich Datenwissenschaftler beim Schreiben von Code an die Greatest Practices der Softwareentwicklung halten sollten. Obwohl ich diesem Gefühl nicht widerspreche, gibt es für alles eine Zeit und einen Ort. Ich glaube nicht, dass dafür unbedingt Modellentwicklungslabore geeignet sind. Anstatt zu versuchen, dieses Chaos zu unterdrücken, sollten wir es als notwendigen Teil des Arbeitsablaufs betrachten und versuchen, Instruments zu nutzen, die uns dabei helfen, es zu bewältigen – ein effektives Modellentwicklungslabor sollte dies bieten. Lassen Sie uns einige mögliche Komponenten untersuchen.
Experimentieren und Prototyping – Jupyter Labs
Jupyter Labs bietet eine vielseitige integrierte Entwicklungsumgebung (IDE), die sich für die Erstellung vorläufiger Modelle und Proof-of-Ideas eignet. Es bietet Zugriff auf Notebooks, Skripte und Befehlszeilenschnittstellen, alles Funktionen, die Datenwissenschaftlern oft intestine bekannt sind.
Als Open-Supply-Device bietet Jupyter Labs eine nahtlose Integration mit Python und R und deckt die meisten modernen Aufgaben zur Entwicklung von Information-Science-Modellen ab. Die meisten datenwissenschaftlichen Workloads können in der Labor-IDE durchgeführt werden.
Umweltmanagement – Anaconda
Durch ein effektives Umgebungsmanagement können nachfolgende MLOps-Workflow-Schritte rationalisiert werden, wobei der Schwerpunkt auf dem sicheren Zugriff auf Open-Supply-Bibliotheken und der Reproduktion der Entwicklungsumgebung liegt. Anakondaein Paketmanager, ermöglicht Datenwissenschaftlern mit seiner einfachen Befehlszeilenschnittstelle (CLI) die Erstellung virtueller Umgebungen und die Set up notwendiger Bibliotheken und Pakete für die Modellentwicklung.
Anaconda bietet auch Repository-Spiegelung an, die Open-Supply-Pakete auf sichere kommerzielle Nutzung prüft, wobei die damit verbundenen Risiken der Verwaltung durch Dritte berücksichtigt werden sollten. Der Einsatz virtueller Umgebungen ist für die Verwaltung der Experimentierphase von entscheidender Bedeutung und stellt im Wesentlichen einen geschlossenen Raum für alle Pakete und Abhängigkeiten für ein bestimmtes Experiment bereit.
Versionskontrolle und Zusammenarbeit – GitHub Desktop
Zusammenarbeit ist ein entscheidender Bestandteil eines erfolgreichen Modellentwicklungslabors und deren Nutzung GitHub-Desktop ist ein wirksames Mittel, dies zu erleichtern. Datenwissenschaftler können über GitHub Desktop ein Repo für jedes Labor erstellen. In jedem Repo wird das Modellentwicklungsnotizbuch oder -skript zusammen mit einer Datei gespeichert umwelt.yml Datei, die Anaconda anweist, wie die Umgebung, in der das Pocket book entwickelt wurde, auf einem anderen Laptop reproduziert werden soll.
Die Kombination aller drei Laborkomponenten Jupyter Labs, Anaconda und GitHub bietet Datenwissenschaftlern einen sicheren Raum zum Experimentieren, Innovieren und Zusammenarbeiten.
#An instance surroundings.yml file replicating a conda surroundingsidentify: myenv
channels:
- conda-forge
dependencies:
- python=3.9
- pandas
- scikit-learn
- seaborn