K-Means-Clustering-Algorithmus.. K-Means-Clustering ist ein unbeaufsichtigter… | von Dishant Kharkar | Juni 2023

0
29


Ok-Means Clustering ist ein unbeaufsichtigter Lernalgorithmus, der Clustering-Probleme im maschinellen Lernen oder in der Datenwissenschaft löst. In diesem Thema erfahren Sie, was der Ok-Means-Clustering-Algorithmus ist.

Bevor wir uns mit Algorithmen befassen, wollen wir zunächst das Clustering verstehen.

  • Clustering ist eine Technik, die im Ok-Means-Algorithmus verwendet wird. In diesem Algorithmus bezieht sich Clustering auf die Gruppierung ähnlicher Datenpunkte basierend auf ihren Eigenschaften oder Merkmalen.
  • Das Ziel des Clustering besteht darin, eine Reihe von Datenpunkten in verschiedene Cluster zu unterteilen, wobei jeder Cluster aus Datenpunkten besteht, die ähnlicher sind als diejenigen in anderen Clustern.
  • Clustering: Gruppieren von Daten basierend auf Ähnlichkeitsmustern basierend auf der Entfernung
  • Ziel ist es, ähnliche Instanzen in Clustern zu gruppieren. Clustering ist ein hervorragendes Werkzeug für Datenanalyse, Kundensegmentierung, Empfehlungssysteme, Suchmaschinen, Bildsegmentierung, halbüberwachtes Lernen, Dimensionsreduzierung und mehr.
  • Ok bedeutet, dass es sich um unbeaufsichtigtes Lernen handelt und auch als Clustering-Algorithmus bezeichnet wird.
  • Ok imply ist ein Clustering-Algorithmus, der verwendet wird, um unbeschriftete Daten auf der Grundlage ihrer Ähnlichkeit in Gruppen/Cluster zu klassifizieren.
  • Hier definiert Ok die Anzahl der vordefinierten Cluster, die im Prozess erstellt werden müssen. Wenn Ok=2, gibt es zwei Cluster, und für Ok=3 gibt es drei Cluster und so weiter.
  • „Es handelt sich um einen iterativen Algorithmus, der den unbeschrifteten Datensatz so in ok verschiedene Cluster aufteilt, dass jeder Datensatz nur zu einer Gruppe gehört, die ähnliche Eigenschaften hat.“ ”
  • Es ermöglicht uns, die Daten in verschiedene Gruppen zu gruppieren und ist eine bequeme Möglichkeit, die Kategorien von Gruppen im unbeschrifteten Datensatz selbst zu ermitteln, ohne dass eine Schulung erforderlich ist.
  • Es handelt sich um einen Schwerpunkt-basierten Algorithmus, bei dem jeder Cluster einem Schwerpunkt zugeordnet ist. Das Hauptziel dieses Algorithmus besteht darin, die Summe der Abstände zwischen dem Datenpunkt und den entsprechenden Clustern zu minimieren.
  • Ok-means versucht dann, verschiedene k-Punkte, sogenannte Schwerpunkte, zu bestimmen, die sich in der Mitte (geringster kumulativer Abstand) von anderen Punkten derselben Klasse, aber weiter von Punkten einer anderen Klasse entfernt befinden.
  • Der Algorithmus verwendet den unbeschrifteten Datensatz als Eingabe, unterteilt den Datensatz in k-Anzahl von Clustern und wiederholt den Vorgang, bis er nicht mehr die besten Cluster findet. Der Wert von ok sollte in diesem Algorithmus vorbestimmt sein.

Der k-means-Clustering-Algorithmus führt hauptsächlich zwei Aufgaben aus:

  • Bestimmt den besten Wert für Ok Mittelpunkte oder Schwerpunkte durch einen iterativen Prozess.
  • Weist jeden Datenpunkt seinem nächstgelegenen Ok-Zentrum zu. Die Datenpunkte, die sich in der Nähe des jeweiligen Ok-Zentrums befinden, bilden einen Cluster.
  1. Daten grafisch darstellen
  2. Wählen Sie die Zahl Ok aus, um die Anzahl der Cluster zu bestimmen.
  3. Wählen Sie zufällige Ok-Punkte oder Schwerpunkte aus. (Es kann sich um einen anderen Eintrag als den Eingabedatensatz handeln).
  4. Ordnen Sie jeden Datenpunkt seinem nächstgelegenen Schwerpunkt zu, der die vordefinierten Ok-Cluster bildet.
  5. Wiederholen Sie den vierten Schritt, was bedeutet, dass Sie jeden Datenpunkt dem neuen nächstgelegenen Schwerpunkt jedes Clusters neu zuweisen.

Bis Sie einen klareren Cluster erhalten, bedeutet dies, dass es keine Überlappungen gibt.

Wir werden jede Figur einzeln verstehen.

  • Abbildung 1 zeigt die Darstellung von Daten aus zwei verschiedenen Elementen. Das erste Aspect wurde in blauer Farbe und das zweite Aspect in roter Farbe angezeigt. Hier wähle ich den Wert von Ok zufällig als 2. Es gibt verschiedene Methoden, mit denen wir die richtigen k-Werte auswählen können.
  • Verbinden Sie in Abbildung 2 die beiden ausgewählten Punkte. Um nun den Schwerpunkt herauszufinden, zeichnen wir eine senkrechte Linie zu dieser Linie. Die Punkte werden zu ihrem Schwerpunkt verschoben. Wenn Sie dort bemerken, werden Sie sehen, dass einige der roten Punkte jetzt zu den blauen Punkten verschoben wurden. Diese Punkte gehören nun zur Gruppe der blauen Farbelemente.
  • Der gleiche Vorgang wird in Abbildung 3 fortgesetzt. Wir verbinden die beiden Punkte, zeichnen eine senkrechte Linie dazu und ermitteln den Schwerpunkt. Jetzt werden die beiden Punkte zu ihrem Schwerpunkt verschoben und wieder werden einige der roten Punkte in blaue Punkte umgewandelt.
  • Der gleiche Prozess findet in Abbildung 4 statt. Dieser Prozess wird fortgesetzt, bis wir zwei völlig unterschiedliche Cluster dieser Gruppen erhalten.
  • Der Abstand zwischen den Clustern sollte hoch sein: Der Abstand zwischen Beobachtungen in zwei Clustern sollte hoch sein.
  • Die Intracluster-Entfernung sollte sehr gering sein: Der Beobachtungsabstand innerhalb des Clusters sollte sehr gering sein.
  • Euklidisches Distanzmaß:

Der häufigste Fall ist die Bestimmung des Abstands zwischen zwei Punkten. Wenn wir Punkt P und Punkt Q haben, ist der euklidische Abstand eine gewöhnliche Gerade. Es ist der Abstand zwischen den beiden Punkten im euklidischen Raum.

Die Formel für den Abstand zwischen zwei Punkten ist unten dargestellt:

  • Manhattan-Entfernungsmaß:

Der Manhattan-Abstand ist die einfache Summe der horizontalen und vertikalen Komponenten oder der Abstand zwischen zwei Punkten, gemessen entlang rechtwinkliger Achsen.

Die Formel ist unten dargestellt:

Der Silhouette-Koeffizient oder Silhouette-Rating ist eine Metrik zur Berechnung der Güte einer Clustering-Technik. Sein Wert liegt zwischen -1 und 1.

1: Bedeutet, dass die Cluster weit voneinander entfernt und klar unterschieden sind.

0: Bedeutet, dass Cluster detached sind, oder wir können sagen, dass der Abstand zwischen Clustern nicht signifikant ist.

  • 1: Bedeutet, dass Cluster falsch zugewiesen sind.

Wichtige Punkte:

  • Es wird ein Abstandsmaß verwendet.
  • Die Skalierung ist sehr wichtig
  • Der Umgang mit Ausreißern ist ebenfalls wichtig.

Die Elbow-Methode ist eine der beliebtesten Methoden, um die optimale Anzahl von Clustern zu ermitteln. Diese Methode verwendet das Konzept des WCSS-Werts. WCSS steht für Inside Cluster Sum of Squares und definiert die Gesamtvariationen innerhalb eines Clusters.

Wie funktioniert es?

ok=[2,3,4,5,6,…10]

  • Wenn ok=2, wenden Sie k-mean an
  • Es wird WCSS finden
  • Dann wiederholen Sie den Schritt für verschiedene k-Werte
  • Zeichnen Sie ein Diagramm von ok gegen WCSS.
  • Wählen Sie den k-Wert, nach dem der WCSS-Wert konstant ist.

Der Ok-Means-Algorithmus ist ein beliebter Clustering-Algorithmus, der in verschiedenen Bereichen verwendet wird, um Datenpunkte in verschiedene Cluster zu gruppieren. Hier sind einige häufige Anwendungen des k-means-Algorithmus:

  • Bildsegmentierung: Bei der Bildverarbeitung können k-Means verwendet werden, um ein Bild basierend auf der Farbähnlichkeit in verschiedene Bereiche zu segmentieren. Jeder Cluster stellt einen bestimmten Bereich im Bild dar und ermöglicht eine weitere Analyse oder Verarbeitung.
  • Kundensegmentierung: Im Advertising and marketing und in der Kundenanalyse können k-means verwendet werden, um Kunden anhand ihres Kaufverhaltens, ihrer Demografie oder anderer relevanter Faktoren in Gruppen zu unterteilen. Diese Informationen können Unternehmen dabei helfen, bestimmte Kundensegmente mit maßgeschneiderten Marketingstrategien anzusprechen.
  • Anomalieerkennung: Ok-Means können verwendet werden, um Ausreißer oder Anomalien in einem Datensatz zu identifizieren. Durch die Clusterung der Daten kann der Algorithmus Datenpunkte identifizieren, die erheblich vom Relaxation der Daten abweichen, was bei der Erkennung betrügerischer Transaktionen, Netzwerkeinbrüche oder anderer Unregelmäßigkeiten hilfreich sein kann.
  • Dokumenten-Clustering: Bei der Verarbeitung natürlicher Sprache (NLP) können k-Means verwendet werden, um ähnliche Dokumente basierend auf ihrem Inhalt zu gruppieren. Dies kann für Aufgaben wie die Organisation von Dokumenten, die Themenmodellierung und den Informationsabruf nützlich sein.
  • Empfehlungssysteme: Ok-Means können in kollaborativen, filterbasierten Empfehlungssystemen verwendet werden, um Benutzer mit ähnlichen Vorlieben oder Verhaltensweisen zu gruppieren. Durch die Identifizierung ähnlicher Benutzercluster können personalisierte Empfehlungen basierend auf den Präferenzen der Benutzer im selben Cluster generiert werden.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Wenn Sie aus diesem Weblog etwas gelernt haben, geben Sie ihm unbedingt ein 👏🏼

Wir treffen uns in einem anderen Artikel, bis dahin Frieden ✌🏼.

Fröhliches Lesen.

Danke schön..

https://www.linkedin.com/in/dishant-kharkar-17b508273/



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here