Bei allen verfügbaren Clustering-Techniken ist die am besten interpretierbar Die beste Clustering-Technik zur Beschreibung der Chancen eines Datenpunkts, einem Cluster beizutreten oder einem beizutreten, wäre das Gaussian Combination Mannequin (GMM). Daher werden wir in diesem Artikel diese Clustering-Technik weiter untersuchen.
Was ist ein Gaußsches Mischungsmodell-Clustering?
Weltweit stehen die meisten Datensätze zur Beschreibung durch eine Gaußsche Verteilung (univariat oder multivariat) zur Verfügung. Basierend auf dieser Annahme kann man mit Sicherheit sagen, dass Cluster in Datensätzen durch diese Verteilung gebildet werden.
Wie funktioniert es?
Wie der Title schon sagt, würde GMM alle Gaußschen Verteilungen in ein Modell integrieren. Unter der Annahme, dass es mehrere Cluster gibt, werden deren Mittelwert und Summe berechnet, die dann bei der Suche nach der Wahrscheinlichkeitsdichte für jeden Cluster verwendet werden.
- p(x): Wahrscheinlichkeitsdichtefunktion von GMM am Datenpunkt x.
- π_k: Mischungskoeffizient der k-ten Gaußschen Komponente.
- 𝓝(x; μ_k, Σ_k): Multivariate Gaußsche Verteilung mit Mittelwert μ_k und Kovarianz Σ_k.
Nachdem die Wahrscheinlichkeit ermittelt wurde, besteht der nächste Schritt darin, die hintere Wahrscheinlichkeit zu ermitteln. Vereinfacht ausgedrückt könnte die A-Posteriori-Wahrscheinlichkeit als Konfidenzniveau unserer Hypothese nach dem Sammeln neuer Beweise betrachtet werden.
Der nächste Schritt nach der Ermittlung der A-posteriori-Wahrscheinlichkeit wäre die Aktualisierung der Modellparameter, bei denen es sich um Mischkoeffizienten und Mittelwertvektoren handelt.
Abgesehen von den Koeffizienten- und Mittelwertvektoren müssen auch die Kovarianzmatrizen aktualisiert werden. Diese überarbeiteten Parameter basieren auf dem gewichteten Durchschnitt für jeden Datenpunkt, wobei diese Gewichte durch die A-posteriori-Wahrscheinlichkeiten bestimmt werden.
Welche Vor- und Nachteile hat die Verwendung von GMM?
Vorteile
- Wahrscheinlichkeit, dass jeder Datenpunkt zu Clustern gehört.
- Nicht nur auf kugelförmige Clusterformen beschränkt.
- Die Größe der Cluster kann variieren.
- In den meisten Fällen ist keine Skalierung erforderlich.
Nachteile
- Es ist schwierig, kategoriale Merkmale zu integrieren.
- Annahme in allen Merkmalen als normalverteilt.
- Clusterformen werden oft als etwas elliptisch angenommen.
- Langsamer als andere Clustering-Methoden.
Wann sollte man es verwenden?
Immer wenn ein Datensatz keine klare Grenze zu einem bestimmten Cluster hat, würde GMM den Tag retten. Die GMM-Technik liefert mehr Informationen über die Wahrscheinlichkeit, dass ein Datenpunkt Teil eines Clusters wird, und ist daher nützlich bei der Behandlung mehrdeutiger Fälle, in denen sich ein Datenpunkt möglicherweise im Schnittpunkt zweier Cluster befindet.
Der andere Grund für die Verwendung von GMM als Clustering-Technik wäre, wenn keine Skalierung des Datensatzes geplant ist. Insbesondere wenn die Daten im Datensatz nicht im gleichen Maßstab liegen.
Allerdings eignet sich GMM möglicherweise nicht optimum für den Umgang mit kategorialen und nicht numerischen Merkmalen. Daher ist es am besten, GMM nicht als Clustering-Methode für Datensätze mit dieser Artwork von Merkmalen zu verwenden. Wenn die Cluster eines Datensatzes unregelmäßig geformt sind, ist es am besten, diese Technik nicht ebenfalls anzuwenden.