Steigerung der Leistung in den neuen Benutzerexperimenten | von Evgeniy Vasilyev | Juni 2023

0
28


A/B-Assessments sind ein wertvolles Device, das viele Unternehmen, darunter auch SmartNews, zur Optimierung ihrer Produkte einsetzen. Durch die zufällige Zuweisung von Benutzern zu Kontroll- und Behandlungsgruppen können wir mit dieser Methode verschiedene Funktionsversionen vergleichen und ihre Auswirkungen messen. Wenn jedoch der Unterschied zwischen der Take a look at- und der Kontrollgruppe, die so genannte Effektgröße, gering ist, kann es aufgrund der geringen Aussagekraft des Assessments schwierig sein, statistisch signifikante Ergebnisse zu ermitteln.

Es stehen Techniken zur Verfügung, um die Aussagekraft des Assessments zu erhöhen und sogar kleinere Effekte zu erkennen, die in der Technologiebranche weit verbreitet sind GESCHLOSSEN Und TAT Methoden. Leider funktionieren diese Ansätze bei Experimenten neuer Benutzer nicht intestine und im folgenden Blogbeitrag werde ich beschreiben, wie wir dieses Drawback bei SmartNews angehen.

Beginnen wir mit der Untersuchung der Prinzipien hinter CUPED. Angenommen, wir möchten den Effekt für die Zielmetrik messen Ydazu nehmen wir ein Merkmal (Kovariate) X die vor dem Experiment bekannt ist und durch das Experiment nicht beeinflusst wurde, und dann eine neue Metrik als Differenz zwischen der Zielmetrik konstruieren Y und Kovariate X:

Wobei 𝜃 ein Koeffizient proportional zur Kovarianz ist cov(Y, X) (im Fall von DID ist es 1). Anschließend führen wir einen statistischen Take a look at für die neue Variable Ŷ durch, die den gleichen Mittelwert wie die ursprüngliche Variable hat (unvoreingenommene Schätzung), aber eine geringere Varianz und daher eine zunehmende Aussagekraft des Assessments. Die folgende Gleichung zeigt den statistischen Take a look at für die neue angepasste Variable Ŷ, wobei 𝜏 die geschätzte Effektgröße ist und W ist eine binäre Variable, die die Zuordnung zur Testgruppe zeigt:

Es kann gezeigt werden, dass die Korrelation zwischen Zielmetriken höher ist Y und Kovariate X, je mehr Varianzreduzierung wir erreichen können und desto höher wäre der Leistungsgewinn. Daher ist es üblich, vor dem Experiment die Zielmetrik selbst als Kovariate auszuwählen X im CUPED-Verfahren. Wenn unsere Zielmetrik beispielsweise der Umsatz ist, können wir den Umsatz vor dem Experiment als Kovariate verwenden. Es ist jedoch nicht immer möglich, eine Kovariate auszuwählen X Auf diese Weise verfügen wir beispielsweise im Falle neuer Benutzerexperimente nicht über Zielmetriken vor dem Experiment, da Benutzer der Plattform gerade erst beigetreten sind.

Gleichzeitig verfügen wir möglicherweise vor dem Experiment über einige nützliche Informationen über neue Benutzer, die zur Varianzreduzierung verwendet werden können, z. B. Geräteinformationen, Marketingkanal, Area, möglicherweise Alter/Geschlecht usw. Diese Merkmale weisen jedoch häufig eine geringe Korrelation auf die Zielmetrik und verringern die Varianz nicht wesentlich, wenn sie in die lineare CUPED-Gleichung integriert werden. Darüber hinaus sind viele dieser Funktionen kategorial und können eine hohe Kardinalität aufweisen (z. B. Standort oder Gerätemodell), was ihre Verwendung im CUPED-Framework schwierig macht. Bedeutet das additionally, dass es keine gute Möglichkeit gibt, die Leistung in Experimenten für neue Benutzer zu steigern?

Glücklicherweise können diese Probleme teilweise mit neuartigen ML-basierten Varianzreduktionstechniken angegangen werden, die in den letzten drei bis vier Jahren eingeführt wurden. Die Hauptidee dieser Ansätze besteht darin, Kovariaten zu ersetzen Xzum Beispiel im CUPED-Framework, mit einer nichtlinearen Funktion mehrerer Variablen G(). Beispielsweise können wir jedes ML-Modell (XGBoost, NN) verwenden, das Zielmetriken vorhersagt Y mit der Menge der Kovariaten.

Ein solcher Ansatz wurde in einer Studie beschrieben PapierAuch ein ähnlicher Ansatz wurde von verwendet DoorDash.

Ähnlich wie bei CUPED ist die Korrelation zwischen neuen Kovariaten höher G(..) und Ziel Y, desto mehr Varianzreduzierung können wir erreichen. Und da wir mehrere Merkmale und nichtlineare Funktionen (ML-Modell) verwenden, würden wir wahrscheinlich eine höhere Korrelation erhalten als bei der CUPED-Methode. Dies ist besonders hilfreich, wenn im Experiment neuer Benutzer schwächere Prädiktoren verfügbar sind.

Ein anderer, etwas anderer Ansatz wurde in Metas beschrieben Papierschlägt vor, das nichtlineare Modell in die vollständige Regressionsgleichung einzubeziehen, anstatt in das CUPED-Framework:

Der vollständige Regressionsansatz bietet gegenüber dem zweistufigen CUPED-Ansatz mehrere Vorteile, insbesondere in Szenarien mit unvollständiger Randomisierung, die in diesem hervorragenden Beispiel veranschaulicht werden Artikel. Basierend auf diesen Überlegungen haben wir uns bei SmartNews für den Ansatz entschieden, der das ML-Modell in die vollständige Regressionsgleichung einbezieht.

Unser Ansatz umfasst mehrere wichtige Schritte:

  • Sammeln Sie vor dem Experiment die für neue Benutzer verfügbaren Kovariaten, z. B. Geräteinformationen usw. Es ist wichtig, dass diese Kovariaten vom Experiment unberührt bleiben, um die Einführung einer Hintertür zu vermeiden Weg Dies könnte zu falschen Schätzungen führen.
  • Da die meisten Options kategorial sind, müssen sie vor der Verwendung im ML-Modell verarbeitet werden, z. B. mit OHE. Ein weiterer Ansatz, den wir gewählt haben, ist die Hebelwirkung CatBoostda kategoriale Merkmale automatisch effektiv verarbeitet werden
  • Erstellen Sie mit CatBoost ein ML-Modell für jede zu testende Zielvariable. Um die Verzerrung durch Überanpassung zu verringern, verwenden wir für Vorhersagen ein Cross-Becoming-Verfahren. Weitere Einzelheiten zu diesem Verfahren finden Sie hier Hier
  • Integrieren Sie die ML-Vorhersagen in die vollständige Regressionsgleichung und schätzen Sie den Behandlungseffekt ab.

Um die Wirksamkeit des oben beschriebenen Ansatzes zu bewerten, haben wir eine Reihe von Experimenten durchgeführt und ihn mit regulären statistischen Assessments zur Analyse von Kennzahlen wie aufgewendeter Zeit, Sitzungsanzahl, Umsatz und aktiven Tagen in neuen Benutzerexperimenten verglichen. Wir haben die Ergebnisse im Hinblick auf die Breitenzunahme des Konfidenzintervalls (CI) verglichen. Mit anderen Worten: Wir haben gemessen, um wie viel die CI-Breite reduziert wurde, wenn die Methode mit ML-Varianzreduktion angewendet wurde (ML VR). Außerdem haben wir bewertet, wie viel kleinere Stichprobengröße bei der Methode mit ML VR erforderlich wäre, um die gleiche CI-Breite wie bei der regulären statistischen Methode zu erreichen. Darüber hinaus haben wir zu Vergleichszwecken auch die CUPED-Methode implementiert. Wie wir bereits besprochen haben, ist die Verwendung von CUPED in Experimenten für neue Benutzer etwas schwierig, da die meisten Kovariaten kategoriale Merkmale mit hoher Kardinalität sind und verarbeitet werden müssen. Um die Aufgabe zu vereinfachen, haben wir eine einzelne Kovariate mit niedriger Kardinalität ausgewählt und normalerweise die Plattform ausgewählt, die verwendet wird hat nur zwei Werte Android oder iOS.

Die Ergebnisse zeigen, dass sowohl die CUPED- als auch die ML-VR-Methode im Vergleich zum regulären statistischen Take a look at zu einer gewissen Reduzierung der Stichprobengröße führten. Allerdings conflict die mit CUPED erreichte Reduzierung der Stichprobengröße vernachlässigbar und lag im Durchschnitt bei 1,5 %. Andererseits zeigte der ML VR-Ansatz eine überlegene Leistung in Bezug auf Modellgenauigkeit und Reduzierung der Stichprobengröße. Obwohl der ML-VR-Ansatz für neue Benutzer immer noch eine relativ geringe Genauigkeit aufwies, vor allem aufgrund der Schwierigkeit, Metriken wie die aufgewendete Zeit ausschließlich auf der Grundlage von Registrierungsfunktionen vorherzusagen, conflict dies möglich Reduzieren Sie die erforderliche Stichprobengröße um durchschnittlich 12 %. In einigen Fällen erreichte die Reduzierung sogar 30 %. Dies führt leicht zu einer erheblichen Zeitersparnis, die Tagen oder sogar Wochen entspricht, die sonst für die Durchführung des Experiments erforderlich wären.

Ein weiteres wertvolles Merkmal dieses Ansatzes ist die automatische Anpassung der Vorspannung über viele Funktionen hinweg. In vielen Experimenten besteht eine Vorverzerrung aufgrund von Faktoren wie einer unvollständigen Randomisierung, was es schwierig macht, solche Verzerrungen zu erkennen und zu korrigieren. Um diesen Punkt zu veranschaulichen, betrachten wir unseren realen Anwendungsfall mit geänderten Zahlen, bei dem es um einen Onboarding-Take a look at für neue Benutzer geht, der darauf abzielt, die Choose-in-Fee zu verbessern. Als wir zunächst einen regelmäßigen statistischen Take a look at durchführten, schienen die Ergebnisse positiv zu sein. Als wir jedoch die ML-VR-Methode anwendeten, erwiesen sich die Ergebnisse als impartial. Um diese Diskrepanz weiter zu untersuchen, haben wir die Ausgabe der Merkmalsbedeutung des ML-Modells untersucht, die verfügbar ist, da wir den Gradienten-Boosting-Algorithmus CatBoost verwenden.

Bemerkenswert ist, dass die Plattformfunktion im Vergleich zu anderen Funktionen eine deutlich höhere Bedeutung hatte. Aus diesem Grund haben wir uns entschieden, die Ergebnisse zu analysieren, indem wir sie nach Plattformebene aufschlüsseln:

Wir haben festgestellt, dass es bei der Gruppierung der Ergebnisse nach Plattform keinen wirklichen Unterschied in den Choose-in-Raten zwischen Take a look at- und Kontrollgruppen gab. Als wir jedoch einen regelmäßigen statistischen Take a look at auf den gesamten Datensatz anwendeten, waren die signifikanten Ergebnisse auf die folgenden Faktoren zurückzuführen:

  • Die Choose-in-Raten für Android waren höher als für iOS
  • Zufälligerweise hatte die Testgruppe im Vergleich zur Kontrollgruppe mehr Android-Nutzer und weniger iOS-Nutzer

Glücklicherweise erfasst der ML-basierte Ansatz automatisch die Voreingenommenheit, die durch unterschiedliche Anteile von Android-Nutzern verursacht wird, und korrigiert diese. Obwohl es sinnvoll erscheint, die Verteilung nach Plattform im Falle des Choose-In-Raten-Experiments zu untersuchen, da bekannt ist, dass Android und iOS unterschiedliche Raten haben, können Vorverzerrungen durch verschiedene Kovariaten wie Geschlecht, Alter, Marketingkanal, Area verursacht werden usw. und es ist eine Herausforderung, Vorverzerrungen für alle Funktionen zu überprüfen und anzupassen, insbesondere wenn Hunderte von Experimenten durchgeführt werden, was normalerweise bei Produktunternehmen der Fall ist. Der ML-VR-Ansatz behebt dieses Drawback automatisch, solange die Kovariate als Merkmal zum ML-Modell hinzugefügt wird. Es ist wichtig zu beachten, dass bestimmte Kovariaten nicht in das ML-Modell einbezogen werden sollten, wenn wir glauben, dass das Experiment sie direkt beeinflussen könnte (wenn wir beispielsweise Android- und iOS-Benutzer im Experiment unterschiedlich behandeln, sollte die Plattform nicht als solche einbezogen werden). Kovariate). Die Einbeziehung solcher Funktionen könnte einen Hintertürpfad einführen und zu einer falschen Einschätzung des Behandlungseffekts führen. Die Auswahl der Merkmale muss sorgfältig geprüft werden, um die Gültigkeit der Ergebnisse sicherzustellen.

Die ML-basierte Methode zur Varianzreduktion erweist sich für Experimente neuer Benutzer als äußerst vorteilhaft. Durch die Einbeziehung schwacher verfügbarer Funktionen erhöht diese Methode die Testleistung und reduziert die erforderliche Stichprobengröße um 5–20 %. Darüber hinaus passt es sich automatisch an Vorverzerrungen an, was eine anspruchsvolle und wichtige Aufgabe beim Experimentieren darstellt.

Die Anwendung dieser Methode ist nicht nur auf neue Benutzer beschränkt; Es liefert auch hervorragende Ergebnisse für die Experimente bestehender Benutzer. Aufgrund seiner nichtlinearen Natur und der Fähigkeit, mehrere Funktionen zu integrieren, übertrifft es CUPED in Bezug auf die Varianzreduzierung. Bei SmartNews nutzen wir diese ML-basierte Methode in unserer Experimentierplattform sowohl für neue als auch für bestehende Benutzer.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here