Den richtigen Weg wählen: Churn-Modelle vs. Uplift-Modelle | von Mark Eltsefon | Juni 2023

0
28


Wie beginnen wir, dieses Ziel zu erreichen?

Zu Beginn ist es wichtig, einen einfachen AB-Check durchzuführen. Dabei geht es darum, einer Gruppe einen Rabatt zu gewähren und gleichzeitig eine Kontrollgruppe ohne Rabatt aufrechtzuerhalten.

Nach dem Experiment haben wir drei Hauptansätze.

Der erste Ansatz besteht darin, zwei separate Modelle zu erstellen: eines für die Kontrollgruppe (ohne Rabatt) und eines für die Behandlungsgruppe (mit Rabatt). Um diese separaten Modelle zu erstellen, können wir jede Artwork von ML-Modell wählen.

Indem wir jeden Kunden beide Modelle durchlaufen lassen, können wir den Uplift als Differenz zwischen den vorhergesagten Ergebnissen berechnen.

Vorteile:

Nachteile:

  • Es lässt sich nicht direkt auf einen Aufschwung schließen. Wir schätzen die Wahrscheinlichkeit der Aktion (Kauf) der Nutzer ein.
  • Der Zwei-Modell-Aufbau führt eine Doppelfehlermodellierung ein, da beide Modelle ihre eigenen Fehler haben, was zu größeren Gesamtfehlern führt.

Der zweite Ansatz dreht sich um die Transformation der Zielvariablen selbst. Indem wir ein neues Ziel erstellen, das den Auftrieb darstellt, können wir das gewünschte Ergebnis direkt berechnen.

Wir führen eine neue Zielvariable mit der folgenden Formel ein:

Bild vom Autor

Hier stellt Y die ursprüngliche Zielvariable dar und W gibt an, ob die Zielbehandlung angewendet wurde oder nicht. Mit anderen Worten: Y gibt an, ob der Rabatt gewährt wurde oder nicht, und W gibt an, ob ein Kauf getätigt wurde oder nicht.

Die transformierte Variable Z nimmt in zwei Fällen den Wert 1 an:

  • Der Benutzer gehört zur Zielgruppe (W = 1) und Y = 1 (der Rabatt wurde dem Benutzer gewährt und er hat gekauft).
  • Der Benutzer gehört zur Kontrollgruppe (W = 0) und Y = 0 (der Rabatt wurde dem Benutzer nicht gewährt und der Benutzer hat nicht gekauft).

Dann müssen wir nur noch das Modell (z. B. logistische Regression) mit einem neuen Ziel trainieren.

Um den Uplift zu berechnen, können wir die folgende Formel verwenden:

Bild vom Autor

Vorteile:

  • Es ist immer noch einfach umzusetzen.
  • Es ist robuster und stabiler als der erste Ansatz, da wir nur ein Modell haben.

Nachteile:

  • Es lässt sich immer noch nicht direkt auf einen Aufschwung schließen. Wir sagen die transformierte Variable voraus.

Der dritte Ansatz nutzt baumbasierte Modelle.

Ziel ist es, die Teilpopulationen innerhalb eines Datensatzes zu identifizieren, die am besten auf die Behandlung ansprechen, und so gezielte Interventionen mit maximaler Wirkung zu ermöglichen.

Das baumbasierte Uplift-Modell. https://github.com/uber/causalml

Der beispielhafte Entscheidungsbaum für Uplift-Zwecke ist im hervorgehobenen Bild oben dargestellt. Die rote Farbe zeigt die Uplift-Werte an. Durch die Betrachtung des Bildes können wir schlussfolgern, dass die gesamte Uplift-Differenz 0,0127 beträgt (basierend auf einer Zufallsmetrik). Wenn wir jedoch in den Baum hinabsteigen, beobachten wir, dass bestimmte Subpopulationen größere Auftriebsunterschiede aufweisen.

Diese Subpopulationen werden zu unserem Ziel, da sie das Potenzial für maximalen Nutzen bergen.

Wie baut man diesen Baum?

Es gibt zahlreiche Tutorials zum Erstellen von Entscheidungsbäumen, aber hier werde ich den grundlegenden Ansatz skizzieren.

  • Wählen Sie Options aus und identifizieren Sie die Zielvariable, in unserem Fall Uplift.
  • Wählen Sie ein Aufteilungskriterium, um zu bestimmen, wie Knoten aufgeteilt werden.
  • Erstellen Sie den Baum, indem Sie den Aufteilungsprozess rekursiv wiederholen, bis ein Stoppkriterium erfüllt ist.

Es ist erwähnenswert, dass es drei häufig verwendete Aufteilungskriterien für den Aufbau von Uplift-Bäumen gibt, die unten in der Reihenfolge ihrer Beliebtheit aufgeführt sind:

  • KL-Divergenz
  • Chi-Quadrat
  • Euklidische Entfernung

Vorteile:

  • Eine der genauesten Methoden
  • Wir haben einen Entscheidungsbaum, daher können wir einen Wald aus Bäumen und verschiedenen Ensembles konstruieren, der die Genauigkeit erhöht und die Varianz verringert.

Nachteile:

  • Da es sich um eine Entscheidungsbaummethode handelt, neigt der Algorithmus dazu, die kategorialen Variablen mit vielen Ebenen zu überschätzen. Um das Drawback zu beheben, können wir die Mittelwertimputation verwenden.

Jetzt wissen wir, dass die Bewältigung der Kundenabwanderung Strategien erfordert, die über die bloße Schätzung der Abwanderungswahrscheinlichkeit hinausgehen. Das ultimative Ziel besteht darin, jedem Benutzer die am besten geeignete Behandlung zukommen zu lassen und geschäftliche Auswirkungen statt Abwanderungswahrscheinlichkeit zu erzielen.

Uplift-Modellierung, die auf verschiedene geschäftliche Herausforderungen über die Abwanderung hinaus angewendet werden kann, bietet eine leistungsstarke Lösung mit unmittelbaren Auswirkungen auf das Geschäft.

Es gibt immer noch viele interessante Fragen zur Uplift-Modellierung, z. B. zur Handhabung mehrerer Behandlungen, zur Schätzung verschiedener Uplift-Modelle und zum Einsatz mehrarmiger Banditen für die Produktion, aber ich werde die Antworten für den nächsten Beitrag aufheben.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here