7 Tage Statistik für Data Science: Tag 01 – Was ist Statistik? | von Madhuri Patil | Juni 2023

0
27


Statistik ist ein wesentlicher Bestandteil der Datenwissenschaft. In diesem Artikel werden die Bedeutung von Statistiken in der Datenwissenschaft und die Arten von Statistiken im Element behandelt, um die Daten mithilfe der Python- und Pandas-Bibliothek zu verstehen.

Foto von Justin Morgan An Unsplash

Mathematik und Statistik sind die Grundlage für Knowledge Science und maschinelles Lernen. Heutzutage ist jedes Unternehmen datengesteuert und verfügt über riesige Datenmengen. Daten sind nichts anderes als ein formloser Bytestrom, sie werden nach der Verarbeitung und Transformation von Rohdaten zu Informationen. Aus diesem Grund sind Unternehmen immer auf der Suche nach Datenexperten, die ihnen dabei helfen können, aus Rohdaten aussagekräftige Erkenntnisse zu gewinnen, um komplexe Probleme zu lösen oder intelligente Systeme zu erstellen, die schließlich zum Wachstum des Geschäftsumsatzes beitragen.

Daten sind heute günstig und überall verfügbar. Allerdings ist es teuer, die richtige Frage zu stellen. Die Definition einer Problemdefinition ist der erste Schritt in jedem maschinellen Lernprojekt. Es handelt sich um eine der entscheidenden Fähigkeiten im Bereich des maschinellen Lernens oder der Datenwissenschaft.

Wenn Sie ein Downside nicht definieren können; Sie verfügen über die Daten, haben aber keine Ahnung, wie Sie diese Daten für Ihr Unternehmen nutzen können. Wie könnten Sie dann ein System aufbauen, das zum Erfolg Ihres Unternehmens beiträgt?

Statistik und Mathematik können Ihnen helfen, historische Daten zu verstehen und die richtigen Fragen zu stellen. Im Mittelpunkt des maschinellen Lernens steht die Statistik. Es ist ein wesentlicher Teil des Lernens, da es die Werkzeuge und Techniken bereitstellt, um Daten zu verstehen und zu bearbeiten und daraus aussagekräftige Informationen abzuleiten. Wenn Sie sich für Datenwissenschaft interessieren, müssen Sie über ein ausgeprägtes Verständnis dieser Themen verfügen.

Willkommen zur Reihe „7 Tage Statistik für Knowledge Science“. In dieser Reihe lernen wir die Grundlagen der Statistik für Knowledge Science anhand praktischer Implementierungen mit Python und seinen Bibliotheken kennen.

In diesem ersten Artikel werden wir die grundlegenden Konzepte der Statistik behandeln, die jeder Datenwissenschaftler wissen sollte, wie zum Beispiel, was Statistiken sind und welche Arten sie haben. Wir werden versuchen zu verstehen, wie man sie in Python und Pandas verwendet.

Lasst uns beginnen!

Was sind Statistiken?

Statistik ist ein Zweig der Mathematik, der sich mit der Sammlung, Analyse und Interpretation von Daten befasst, um anspruchsvolle Entscheidungen zu treffen.

In der Statistik sind wir häufig an der Erhebung von Daten interessiert, um Antworten auf unsere Fragen zur Bevölkerung zu finden. Wie groß ist beispielsweise eine Frau in einem bestimmten Land?

Der Bevölkerung repräsentiert jedes mögliche einzelne Objekt, das wir messen möchten. Da es jedoch nicht möglich ist, Bevölkerungsdaten zu sammeln, sammeln Forscher Datenstichproben. Der Probe stellt eine Teilmenge einer Inhabitants dar. Dann können wir die Schlussfolgerungen und Erkenntnisse aus der Stichprobe auf die größere Bevölkerung übertragen.

Wenn Sie beispielsweise die Frage beantworten möchten: „Wie hoch ist das durchschnittliche Gewicht der Schüler einer bestimmten Schule mit 5.000 Schülern?“ In diesem Szenario entspricht die Bevölkerung dem Gewicht jedes Schülers in der Schule. Es könnte jedoch zu lange dauern, eine Umfrage unter jeweils 5.000 Schülern durchzuführen, sodass wir möglicherweise Daten für zufällig ausgewählte 100 Schüler sammeln und sie nach ihrem Gewicht fragen.

Hier repräsentieren 5000 Studierende die Grundgesamtheit und zufällig ausgewählte 100 Studierende repräsentieren eine Stichprobe. Dann können wir die Ergebnisse der Stichprobe auf die gesamte Grundgesamtheit übertragen.

Eine Stichprobe muss für die Grundgesamtheit repräsentativ sein. Wenn die Grundgesamtheit von 5000 Schülerdaten beispielsweise 60 % Jungen und 40 % Mädchen enthält, muss eine Zufallsstichprobe von 100 Schülern aus dieser Grundgesamtheit 60 % Jungen und 40 % Mädchen enthalten Daten und nur dann können wir die Ergebnisse der Stichprobe auf die Gesamtbevölkerung übertragen.

Bei der Datenanalyse werden hauptsächlich zwei statistische Methoden verwendet:

  • Beschreibende Statistik
  • Inferenzstatistik

Beschreibende Statistik

Beschreibende Statistiken sind zusammenfassende Statistiken, die den Datensatz beschreiben oder analysieren, um die Hauptmerkmale der Options mithilfe von Diagrammen, Tabellen oder Datenvisualisierungsmethoden zu messen.

Es hilft uns, die Daten tiefer zu verstehen. Beschreibende Statistiken liefern Erkenntnisse darüber, was in der Vergangenheit passiert ist, bevor sie versuchen, zu erklären, warum es passiert ist, oder vorherzusagen, was in der Zukunft passieren wird.

Um Ihnen eine Vorstellung zu geben, werden üblicherweise ein Maß für zentrale Tendenzen wie Mittelwert, Median und Modus sowie Maße für Variabilität oder Streuung wie Standardabweichung oder Varianz, die minimalen und maximalen Werte der Variablen, die Wölbung und die Schiefe der Daten verwendet über die Verbreitung Ihrer Daten.

Eigenschaften von Daten können mithilfe von Histogrammen grafisch dargestellt werden. Beschreibende Statistiken können auch verwendet werden, um die Beziehungen zwischen den beiden Variablen mithilfe einer Kontingenztabelle oder mithilfe grafischer Darstellungen wie Boxplots oder Streudiagrammen zu verstehen.

Bei der explorativen Datenanalyse im maschinellen Lernen verwenden wir üblicherweise zwei statistische Analysemethoden.

  • Univariate Analyse
  • Bivariate Analyse

Univariate Analyse

Die univariate Analyse liefert zusammenfassende Statistiken einer einzelnen Variablen unter Verwendung des Maßes für die zentrale Tendenz und des Maßes für die Variabilität. Es hilft uns, die Verteilung jedes Merkmals eingehend zu untersuchen, damit wir diese Analyse bei der Merkmalsauswahl zur Modelloptimierung weiter nutzen können.

Sehen wir uns an, wie wir Python und Pandas verwenden können, um eine univariate Analyse von Daten durchzuführen. Dafür habe ich den Schülerleistungsdatensatz von Okay verwendetaggle.

# Import pandas library
import pandas as pd

# Learn Knowledge
knowledge = pd.read_csv("StudentsPerformance.csv")

Mit Pandas können wir die grundlegenden Metadateninformationen zu den Daten drucken pandas.DataFrame.data() Methode. Es gibt die Gesamtzahl der Zeilen und Spalten in Datensätzen, die Datentypen jedes Options mit der Anzahl der Nicht-Null-Werte und die gesamte Speichernutzung der Daten zurück.

# Metadata Data
>>> knowledge.data()

<class 'pandas.core.body.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Knowledge columns (complete 8 columns):
# Column Non-Null Rely Dtype
--- ------ -------------- -----
0 gender 1000 non-null object
1 race/ethnicity 1000 non-null object
2 parental stage of schooling 1000 non-null object
3 lunch 1000 non-null object
4 check preparation course 1000 non-null object
5 math rating 1000 non-null int64
6 studying rating 1000 non-null int64
7 writing rating 1000 non-null int64
dtypes: int64(3), object(5)
reminiscence utilization: 62.6+ KB

Um eine schnelle Zusammenfassung der Datenstatistiken zu erhalten, können wir Pandas verwenden pandas.DataFrame.describe() Methode. Es gibt einen Datenrahmen mit den Werten Mittelwert, Standardabweichung, Gesamtzahl und fünf Zeigern zurück – Minimal und Most, 25., 50. und 75. Perzentil für jedes numerische Merkmal.

Für kategoriale Merkmale können wir dieselbe Methode mit Parametern verwenden embody=all, werden zusammenfassende Statistiken für jedes Characteristic zurückgegeben, einschließlich kategorialer Spalten. Sie können es explizit mit einer Liste der Datentypen der Spalten festlegen, für die Sie eine zusammenfassende Beschreibung wünschen.

# Abstract statistics of numerical options
>>> knowledge.describe()

math rating studying rating writing rating
rely 1000.00000 1000.000000 1000.000000
imply 66.08900 69.169000 68.054000
std 15.16308 14.600192 15.195657
min 0.00000 17.000000 10.000000
25% 57.00000 59.000000 57.750000
50% 66.00000 70.000000 69.000000
75% 77.00000 79.000000 79.000000
max 100.00000 100.000000 100.000000

# Abstract statistics for categorical options with `Object` sort.
>>> knowledge.describe(embody=['O'])
gender race/ethnicity parental stage of schooling lunch
rely 1000 1000 1000 1000
distinctive 2 5 6 2
prime feminine group C some faculty commonplace
freq 518 319 226 645

check preparation course
rely 1000
distinctive 2
prime none
freq 642

# Abstract statistics for all options.
>>> knowledge.describe(embody='all')
gender race/ethnicity parental stage of schooling lunch
rely 1000 1000 1000 1000
distinctive 2 5 6 2
prime feminine group C some faculty commonplace
freq 518 319 226 645
imply NaN NaN NaN NaN
std NaN NaN NaN NaN
min NaN NaN NaN NaN
25% NaN NaN NaN NaN
50% NaN NaN NaN NaN
75% NaN NaN NaN NaN
max NaN NaN NaN NaN

check preparation course math rating studying rating writing rating
rely 1000 1000.00000 1000.000000 1000.000000
distinctive 2 NaN NaN NaN
prime none NaN NaN NaN
freq 642 NaN NaN NaN
imply NaN 66.08900 69.169000 68.054000
std NaN 15.16308 14.600192 15.195657
min NaN 0.00000 17.000000 10.000000
25% NaN 57.00000 59.000000 57.750000
50% NaN 66.00000 70.000000 69.000000
75% NaN 77.00000 79.000000 79.000000
max NaN 100.00000 100.000000 100.000000

Wenn Sie eine Beschreibung für alle Funktionen drucken, wird diese zurückgegeben NaNfür nicht zutreffende Werte. Zum Beispiel für eine Spalte gender Es gibt keinen Durchschnitt oder keine Standardabweichung für Werte wie feminine or male. Für kategoriale Variablen werden die Gesamtzahl der Beobachtungen, die Anzahl der in den Spalten vorhandenen eindeutigen Werte und der häufigste Wert mit seiner Anzahl zurückgegeben.

Sie können jedes einzelne Merkmal weiter auswerten, indem Sie ein Histogrammdiagramm verwenden, oder für kategoriale Merkmale können wir verschiedene Pandas-Methoden verwenden, z pandas.DataFrame[column_name].value_counts() um die eindeutige Anzahl jedes Werts zu ermitteln.

Bivariate Analyse

Die bivariate Analyse untersucht die Beziehungen zwischen zwei oder mehr Variablen. Es hilft Ihnen festzustellen, ob Variablen korrelieren oder nicht. Visualisierungen werden oft zusammen mit qualitativen Analysen verwendet, um das Ergebnis intuitiver darzustellen. Es bietet Einblicke in das Downside und hilft bei der Entwicklung von Ideen oder Hypothesen für eine mögliche quantitative Forschung.

Benutzen pandas.DataFrame.groupby() Methode und Diagramme können wir die Beziehung zwischen den zwei oder mehr Variablen sowie mit Merkmalen und Antwortvariablen untersuchen.

Lassen Sie uns die Beziehung zwischen untersuchen math rating Und writing rating der Schüler verwenden Streudiagramme mithilfe der Matplotlib-Bibliothek.

# Import matplotlib
import matplotlib.pyplot as plt

# Scatter plot
plt.scatter(knowledge['math score'], knowledge['writing score'])

# Set lables
plt.xlabel("Math Rating")
plt.ylabel("Writing Rating")
plt.title("Scatter Plot")

plt.grid(ls='--', c='#000', alpha=0.2)
plt.present()

Aus dem obigen Streudiagramm können wir sagen, dass zwischen diesen beiden Werten eine optimistic Korrelation besteht.

Inferenzstatistik

In der Statistik versucht die inferenzstatistische Analyse, mithilfe eines statistischen Modells etwas über die Bevölkerung zu lernen, wobei berücksichtigt wird, dass die Stichprobe die größere Bevölkerung darstellt. Zum Beispiel das Testen einer Hypothese und das Ableiten einer Grundgesamtheit aus Stichprobendaten. Allerdings liefert die Stichprobe möglicherweise nicht immer eine perfekte Schätzung der Bevölkerung. Um diese Unsicherheit zu messen, können wir ein Konfidenzintervall erstellen.

Ein Konfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält. Beispielsweise könnten wir ein 95 %-Konfidenzintervall von erstellen [61.5, 64.5] Das heißt, dass wir zu 95 % sicher sind, dass das durchschnittliche Gewicht der Schüler einer bestimmten Schule zwischen 61,5 kg und 64,5 kg liegt.

Im maschinellen Lernen bedeutet der Begriff „Inferenz“ manchmal, eine Vorhersage anhand zuvor trainierter Modelle zu treffen. Das Ableiten der Eigenschaften des Modells wird als Coaching oder Lernen bezeichnet. Obwohl maschinelles Lernen und Statistik methodisch eng miteinander verbundene Bereiche sind, sind ihre Hauptziele unterschiedlich. Maschinelles Lernen findet verallgemeinerbare Vorhersagefunktionen auf der Grundlage historischer Daten, die zur Vorhersage zukünftiger Ergebnisse mithilfe von Modellfunktionen verwendet werden können.

Zusammenfassend lässt sich sagen, dass deskriptive Statistiken verwendet werden, um die Eigenschaften oder die Verteilung von Merkmalen eines Datensatzes zu verstehen, und inferenzielle Statistiken werden verwendet, um Populationen auf der Grundlage von Stichprobendaten mithilfe von Hypothesentests oder Konfidenzintervallen zu schließen. Das ultimative Ziel der Datenanalyse besteht darin, Erkenntnisse zu liefern. Diese Erkenntnisse aus der statistischen Analyse können in weiteren Prozessen der Merkmalsauswahl oder des Engineerings genutzt werden.

Ich hoffe, dieser Artikel hilft Ihnen, Statistiken und ihre Typen zu verstehen.

Vielen Dank fürs Lesen! 😊🙏



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here