Zeitreihenmodell für maschinelles Lernen mit Python
Die Landwirtschaft ist seit langem das Rückgrat der pakistanischen Wirtschaft und macht quick einen Drittel der Bevölkerung aus Fünftel des gesamten BIP Pakistansmit Punjab war der prominenteste Beitragszahler. Die Bedeutung dieses Sektors spüren täglich Millionen Pakistaner. Daher kann der Versuch, die Produktionsergebnisse genau vorherzusagen, ein wichtiges Instrument nicht nur für Landwirte, sondern für Beamte insgesamt sein. Aus politischer Sicht kann die Möglichkeit, die Produktion für die kommenden Jahre vorherzusagen, genutzt werden, um sicherzustellen, welche Bereiche der Provinz besondere Aufmerksamkeit oder Subventionierung benötigen. Darüber hinaus würde die Möglichkeit, die jährliche Produktion von landwirtschaftlichen Betrieben im gesamten Punjab vorherzusagen, dazu beitragen, eine Einschätzung darüber zu erhalten, wie die Preise für Feldfrüchte in der Zukunft aussehen würden.
Die Inspiration für dieses maschinelle Lernprojekt ergab sich aus den Herausforderungen, denen sich Landwirte und politische Entscheidungsträger bei der effektiven Planung und Verwaltung der Pflanzenproduktion gegenübersehen. Darüber hinaus erweitern technologische Fortschritte in den Bereichen Datenwissenschaft und maschinelles Lernen ihr Anwendungspotenzial weiter. Durch den Einsatz dieser Instruments ist es möglich, wertvolle Einblicke in die Faktoren zu gewinnen, die die Pflanzenproduktion beeinflussen, und genauere Prognosen zu entwickeln.
Aslam et al. führte eine gründliche Analyse der Weizenproduktion in Pakistan durch, um festzustellen, wie sich zahlreiche Indikatoren auf die Produktion auswirken. Er enthüllte, dass zu den wichtigsten Merkmalen der Weizenproduktion die vorherrschenden Produktionstrends Dynamik und Volatilität gehören. Diese Studie diente uns als Inspiration, da wir tief in die Area Punjab eintauchen und sehen wollten, wie sich die Developments bei den verschiedenen Kulturpflanzen in den verschiedenen Bezirken unterscheiden.
Der für diesen Artikel ausgewählte Datensatz stammt aus dem Datenressourcenzentrum der Lahore College of Administration Science (LUMS). Für das Projekt wurden zwei Datensätze ausgewählt, einer für verschiedene landwirtschaftliche Inputs und einer für landwirtschaftliche Outputs.
Eingabedatensatz
Der Eingabedatensatz hatte insgesamt 918 Zeilen und 9 Spalten. Der Datensatz enthielt Werte für alle 34 Bezirke von Punjab zwischen 1993 und 2019. Zu den wichtigsten Eingabemerkmalen gehörten Tube_wells (Anzahl der für landwirtschaftliche Zwecke genutzten Rohrbrunnen), Tractors (Anzahl der für landwirtschaftliche Zwecke genutzten Traktoren) und Fertilizer_off_take (Verkauf von Düngemitteln in Tonnen), Land (Gesamtfläche, die während der Rabi- und Kharif-Saison gesät wird) und Arbeit (jährliche Manntage in Tausenden, die für die Ausführung landwirtschaftlicher Aufgaben aufgewendet werden).
Ausgabedatensatz
Der Ausgabedatensatz hatte insgesamt 45.356 Zeilen und 9 Spalten. Der Datensatz enthielt auch Werte für alle 34 Bezirke von Punjab zwischen 1990 und 2018. Die Daten für jedes Jahr wurden für jeden Bezirk und dann für jede der 46 einzelnen Kulturen sortiert. Darüber hinaus enthielt es auch unsere abhängige Variable, die Produktion in Tonnen und den Jahrespreis.
Datensätze zusammenführen
Aufgrund der unterschiedlichen Zeilenanzahl beider Datensätze konnten die beiden nicht ohne Änderungen zusammengeführt werden. Da der Eingabedatensatz die Eingaben für jedes Jahr und jeden Bezirk enthielt, gingen wir davon aus, dass sie für jedes Jahr in jedem Bezirk und für jede Kultur gleich sein würden. Für jede Instanz in den Eingabedatensätzen wurden insgesamt 46 doppelte Zeilen erstellt. Darüber hinaus wurden alle Beobachtungen in den Jahren 1990, 1991, 1992 und 2019 aus dem Ausgabedatensatz entfernt, um die beiden Datensätze schließlich zusammenzuführen. Überflüssige Funktionen wie doppelte Spalten für Jahr und Bezirk wurden ebenfalls entfernt. Dieser zusammengeführte Datensatz hatte 40604 Zeilen und 9 Spalten.
Entfernen unnötiger Funktionen
Die Spalte „Jahrespreis“ hat unserem Datensatz nur einen sehr geringen Mehrwert verliehen und wurde zusammen mit den Spalten „Provinz“ und „Erntekategorie“ daraus entfernt.
Dummy-Codierung kategorialer Variablen
Wir hatten zwei Hauptmerkmale, die als Dummies kodiert werden mussten: Bezirke und Kulturpflanzen. Da es insgesamt 46 Kulturen und 34 einzelne Bezirke gab, wurden nach der n-1-Regel 45 Dummies für Kulturen und 33 für Bezirke erstellt.
Hinzufügen von Funktionen
Für die vom Hochwasser betroffenen Bezirke wurde eine Dummy-Variable erstellt. Überschwemmungen waren in der Vergangenheit für den größten Verlust der landwirtschaftlichen Produktion verantwortlich. Daher wurden Daten aus offiziellen pakistanischen Quellen gesammelt, einschließlich der Provinzielle Katastrophenschutzbehörde von PunjabUnd von der Regierung von Punjab veröffentlichte Postkatastrophenberichte. Zu den Jahren, in denen Teile des Punjab von schweren Überschwemmungen betroffen waren, gehören 1995, 2010, 2011, 2012, 2013, 2014 und 2016. Nur Bezirken, die stark von Überschwemmungen betroffen waren, wurde ein Wert von 1 zugewiesen.
Ändern der Jahresspalte
Die Jahresspalte enthielt die Jahre 1993 bis 2018. Eine einfache Kartenfunktion wurde verwendet, um die Werte in eine kategorisch codierte Variable umzuwandeln, um bessere Ergebnisse im Zeitreihenmodell zu ermöglichen. Die Kodierung battle wie folgt: 1993 zugewiesen 1, 1994 zugewiesen 2, bis 2018 zugewiesen 26.
Endgültiger Datensatz
Der endgültige bereinigte Datensatz hatte 40604 Zeilen und 83 Spalten.
Wir wollten sehen, ob wir die historischen Daten analysieren können, um daraus sinnvolle Muster abzuleiten. Zu diesem Zweck haben wir eine Reihe von Diagrammen erstellt, um die Visualisierung unserer Daten zu erleichtern.
Visualisierungen
Zuerst wollten wir sehen, welche Pflanzen in allen Bezirken im Punjab am meisten produziert wurden. Dazu haben wir die Produktion in Tonnen über alle Jahre hinweg zusammengefasst und sie zunächst nach jedem Bezirk und dann nach jeder Ernte gruppiert. Als nächstes wurde die Kulturpflanze mit der höchsten Gesamtproduktion für jeden Bezirk zu einem separaten Datenrahmen hinzugefügt, der zur Erstellung eines Kreisdiagramms verwendet wurde.
Das Kreisdiagramm unten zeigt, dass in allen 34 Distrikten Zuckerrohr und Weizen die am höchsten produzierten Gesamtkulturen waren, was 52,9 % bzw. 47,1 % der gesamten 34 Distrikte entspricht, in denen sie am meisten produziert wurden. Zuckerrohr wurde in 18 Distrikten am meisten produziert, während Weizen in 16 Distrikten am meisten produziert wurde.
Als nächstes wollten wir sehen, wie sich die Gesamtproduktion in Tonnen für alle Bezirke zwischen 1993 und 2018 verändert hat. Die Produktionswerte wurden nach jedem Jahr summiert und gruppiert und gegen die Jahre aufgetragen.
Das folgende Liniendiagramm zeigt, dass die Produktion im Allgemeinen jedes Jahr zunahm und 2017 am höchsten battle.
Wir wollten auch visualisieren, wie unterschiedlich die Produktion aller verschiedenen Nutzpflanzen an beiden Enden unserer Zeitreihe battle. Es wurden zwei Diagramme erstellt, von denen eines die einzelnen Erntemengen summiert über alle Bezirke für 1993 zeigt und das zweite dasselbe für 2018 zeigt.
Die folgenden Diagramme zeigen, dass in beiden Jahren die Produktion von Zuckerrohr und Weizen die Produktion unter anderen Nutzpflanzen dominierte. Darüber hinaus zeigt es uns, in welchem Umfang diese beiden Nutzpflanzen im Vergleich zu anderen Nutzpflanzen produziert werden. Die meisten Nutzpflanzen, darunter Mais, Kartoffeln, Reis, Zuckerrohr und Weizen, verzeichneten im Jahr 2018 einen starken Anstieg im Vergleich zu ihrem Produktionsniveau im Jahr 1993.
Um die Produktionsniveaus aller Kulturen im Zeitverlauf weiter zu veranschaulichen, wurde ein Liniendiagramm erstellt. Die folgende Grafik zeigt, dass sich mehr oder weniger der gleiche Pattern wie im vorherigen Diagramm fortsetzte. Zuckerrohr und Weizen dominierten in allen Jahren unter allen anderen Nutzpflanzen, und bei allen Nutzpflanzen battle ein allgemein positiver Pattern zu beobachten.
Prime 5 Nutzpflanzen filtern
Die beiden vorherigen Visualisierungen haben zu der Schlussfolgerung geführt, dass die fünf wichtigsten Nutzpflanzen, additionally Zuckerrohr, Weizen, Reis, Kartoffeln und Mais, in allen Teilen des Punjab und über alle Jahre hinweg deutlich mehr produziert werden. Daher haben wir alle anderen Pflanzen als die zuvor genannten entfernt.
Die folgende Grafik zeigt die Veränderung der Pflanzenproduktion für die fünf am meisten produzierten Pflanzen zwischen 1993 und 2018.
Darüber hinaus verbesserten sich die Korrelationen zwischen der Zielvariablen und den Merkmalsvariablen erheblich, indem nur die fünf am meisten produzierten Pflanzen beibehalten wurden.