Einführung des Naive Bayes-Klassifikators
NDer aive Bayes-Klassifikator ist ein probabilistischer Klassifikator, der sich besonders intestine für die Textklassifizierung eignet (z. B. ob es sich bei einer E-Mail um Spam oder Ham bei der Spam-Erkennung handelt). Wenn ein Textual content eingegeben wird, berechnet es die Wahrscheinlichkeit, dass der Textual content einer bestimmten Klasse angehört (z. B. ist die Wahrscheinlichkeit, dass eine E-Mail mit dem Textual content „Gewinne einen 30-Greenback-Preis“ ein Spam ist). Der Klassifikator wählt dann die Klasse mit der höchsten Wahrscheinlichkeit als vorhergesagte Klasse aus.
Vereinfacht ausgedrückt funktioniert der Klassifikator wie folgt:
- Es gibt bekannte Wortverteilungen für Spam-E-Mails und Ham-E-Mails, wie unten dargestellt. Spam-E-Mails enthalten normalerweise Wörter wie „Geld“, „Preis“, „Kostenlos“ usw. Ham-E-Mails enthalten normalerweise Wörter wie „Jetzt“, „Arbeit“, „Wie“ usw.
- Basierend auf diesen Verteilungen möchten wir vorhersagen, ob der Textual content „Gewinne einen 30-Greenback-Preis“ eine Spam-E-Mail oder eine Ham-E-Mail ist. Es ist intuitiv, dass es sich bei diesem Textual content in diesem Fall eher um Spam als um Ham handelt.
Um die tatsächliche Wahrscheinlichkeit zu berechnen, ob es sich bei dieser E-Mail um Spam oder Ham handelt gegeben Damit der Textual content „Gewinne einen 30-Greenback-Preis“ lautet (genannt „posterior“), benötigen wir die folgenden Zutaten:
- Eine Wahrscheinlichkeit des Auftretens von Spam-E-Mails und Ham-E-Mails („vorher“)
- Eine bedingte Wahrscheinlichkeit, dass der Textual content „Gewinne einen 30-Greenback-Preis“ angezeigt wird. gegeben jede der möglichen Klassen, Spam oder Ham („Probability“) – dies entspricht den oben diskutierten Wortverteilungen
- Eine Wahrscheinlichkeit, dass der Textual content „Gewinne einen 30-Greenback-Preis“ in jedem Textual content auftaucht, unabhängig davon, ob es sich um Spam oder Ham handelt („Beweis“)
Mit diesen Zutaten wird der Seitenzahn wie folgt berechnet. Ich persönlich verstehe diese Formel so frühere wird multipliziert mit Wahrscheinlichkeit um die Wahrscheinlichkeit zu ermitteln, dass eine E-Mail „Gewinne einen 30-Greenback-Preis“ und ein Spam ist (basierend auf dem Satz der bedingten Wahrscheinlichkeit). Und diese Wahrscheinlichkeit wird durch skaliert Beweis um die bedingte Wahrscheinlichkeit von zu erhalten frühere gegeben Beweis (dh, hintere).
Mathematisch lässt es sich wie folgt ausdrücken.
Eine wichtige Annahme für Naive-Bayes-Klassifikatoren ist, dass die Wörter, aus denen sich ein Textual content zusammensetzt, unabhängig voneinander sein sollten. Für den Textual content „Gewinne einen 30-Greenback-Preis“ bedeutet dies, dass „Gewinn“, „30 Greenback“ und „Preis“ probabilistisch alle unabhängig voneinander sein sollten. Dies wird jedoch nicht immer der Fall sein. In der Praxis ist es möglich, dieses Downside zu lösen, indem man korrelierte Wörter entfernt und dafür repräsentativere Wörter beibehält.