Für das Projekt, das eine Financial institution von Kaggle nutzt, wurde der Artikel zurückgezogen Datensätze zur Hotelbuchungsnachfrage. O artigo descreve dois Datensätze Als Nachfrage nach zwei Lodges, Erlebnishotel e Stadthotelambos com a mesma estrutura de 31 Varianten. Achten Sie darauf, dass Sie für wissenschaftliche und akademische Zwecke viel Geld ausgeben, da diese Daten bei der Aufnahme von Dokumenten wichtig sind, automatisch abgerechnet werden oder Daten extrahieren.
Die gesamte Behandlung, Erkundung und Analyse der im letzten Artikel gefundenen Daten könnte auch auf meinem GitHub gefunden werden. Assim vermutet, dass o Datenrahmen ursprünglich Nein será o unique, retirado do Kaggle. Für ein Beispiel oder einen Originalbeitrag von 119.390 erhalten wir nach der Gesamtsumme eine mögliche Behandlung von 86.608.
Contudo, a maioria dos modelos de maschinelles Lernen Da es sich nicht um ein Textformat handelt, verwenden wir möglicherweise eine Web site aus der Bibliothek SciKit-LernenChamada LabelEncoder, um Daten in numerische Werte umzuwandeln. Hierfür werden verschiedene Kategorien aufgelistet, die im Textformat erstellt wurden:
#variáveis categóricas
cat_cols = [col for col in df.columns if df[col].dtype == 'O']
Aplicaremos então o LabelEncoder nessas variáveis:
le = preprocessing.LabelEncoder()
df[cat_cols] = df[cat_cols].apply(le.fit_transform)
Das Ergebnis ist:
Agora todas as variáveis do Datenrahmen Folgende Zahlen:
Uma boa prática, bevor Sie die Modelle anwenden maschinelles Lernen Wenn Sie die Zahlen kennen, werden Sie wissen, was Sie tun müssen SciKit-Lernen, StandardScaler, será usada. Assim, wie verschiedene Numerika sagen:
## Padronizando as variáveis numéricas
from sklearn.preprocessing import StandardScaler
sca = StandardScaler()
X_temp= sca.fit_transform(num_cols)
X_temp = pd.DataFrame(X_temp, columns= num_cols.columns)
Obtemos:
Podemos agora unir os dois Datenrahmen neu:
frames = [cat_var, X_temp]
df = pd.concat([cat_var.reset_index(drop=True), X_temp.reset_index(drop=True)], axis = 1)
Pronto, agora temos o Datenrahmen Bereiten Sie das Modell für die Anwendung vor maschinelles Lernen. Começaremos separando as variáveis:
X = df.drop(columns = 'is_canceled')
y = df['is_canceled']from sklearn import model_selection
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, stratify= y,test_size = 0.3,random_state=42)
Wichtige Informationen zu den von Ihnen verwendeten Modellen:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report
Nutzen Sie drei verschiedene Modelle von:
Erstens besteht die Möglichkeit, dass ein bestimmtes Modell mit der Stornierung zufrieden ist, und anschließend einen Vergleich zwischen den Modellstatistiken durchführen.
Da es sich um ein Modell handelt, kann es sein, dass es sich nicht um ein Modell handelt, da es vorher nicht storniert wurde. Da es sich um ein Modell handelt, kann es zu Problemen kommen, wenn Sie das Modell sehen XGBClassifierwas zu einer Härte von 99,73 % führte.