Data Science-Trends und Gehälter im Jahr 2023 | von Natalie Marie Whitmore | Juni 2023

0
27


Ein Leitfaden zu Information-Science-Developments mit Python unter Verwendung von Datenvisualisierungstechniken

Bild von Freepik

Information Science ist eines der coolsten Gebiete der letzten Jahre. Viele Menschen mit unterschiedlichem Hintergrund sind in dieses Feld gewechselt. Aber hält dieser Pattern noch an?

Heute beschäftigen wir uns mit dem Information-Science-Gehaltsdatensatz 2023 und erkunden Developments in der Information-Science mit Datenvisualisierungstechniken. Hier sind die Themen, die wir in diesem Weblog behandeln werden:

  • High 10 Berufsbezeichnungen im Jahr 2023
  • Erfahrungsniveaus in der Datenwissenschaft
  • Beschäftigungsarten
  • Gehälter nach Berufsbezeichnungen
  • Gehälter nach Beschäftigungsarten
  • Gehälter nach Arbeitsjahren

Beginnen wir mit dem Laden des Datensatzes.

Der Datensatz, den wir verwenden werden, ist der Gehälter für Data Science 2023 Datensatz auf Kaggle.

Der Data Science-Gehaltsdatensatz 2023

Als Erstes laden wir diesen Datensatz mit Pandas. Diese Bibliothek ist eine großartige Bibliothek zur Durchführung von Datenmanipulationen.

import pandas as pd
df=pd.read_csv('ds_salaries.csv')

Okay, wir haben den Datensatz geladen. Versuchen wir nun, den Datensatz mithilfe verschiedener Methoden in Pandas zu verstehen.

Den Hyperlink zum Notizbuch finden Sie hier Hier.

Bevor wir Rückschlüsse auf den Datensatz ziehen, wollen wir diesen Datensatz ein wenig verstehen. Schauen wir uns zunächst die ersten fünf Zeilen des Datensatzes an head Methode.

df.head()

Wie Sie sehen können, enthält der Datensatz Spalten wie Arbeitsjahr, Erfahrungsniveaus wie SE (Senior) und EN (Junior), Beschäftigungsarten wie FT (Vollzeit) und CT (Vertrag), Berufsbezeichnung, Gehalt usw bald.

Schön, wir haben kurz die Spalten des Datensatzes gesehen. Schauen wir uns nun die Anzahl der Zeilen und Spalten im Datensatz an form Methode.

df.form
# Output
(3755, 11)

Wie Sie sehen können, enthält der Datensatz 3755 Zeilen und 11 Spalten. Dieser Datensatz ist groß genug, um Rückschlüsse zu ziehen. Schauen wir uns nun die Eigenschaften der Spalten im Datensatz genauer an information Methode.

df.information()

Hier können Sie die Spaltennamen, Spaltennummern, fehlenden Daten und Spaltentypen sehen. Wie Sie sehen, fehlen in den Spalten keine Daten. Wir können das nutzen isnull Methode zur Überprüfung auf fehlende Daten. Beachten Sie, dass wir mit a alle fehlenden Daten in jeder Spalte sehen können sum Methode. Um alle fehlenden Daten im gesamten Datensatz anzuzeigen, können wir zwei verwenden sum Methoden wie diese:

df.isnull().sum().sum()
# Output
0

Wie erwartet fehlen im Datensatz keine Daten. Der Datensatz ist ziemlich sauber. Natürlich sind reale Datensätze nicht immer sauber. Schauen wir uns nun die Anzahl der eindeutigen Werte in den Spalten an.

df.nunique()

Der work_year Spalte hat 4 eindeutige Werte. Lassen Sie mich Ihnen diese Jahre mit dem zeigen value_counts Methode.

df["work_year"].value_counts()
# Output:
2023 1785
2022 1664
2021 230
2020 76
Title: work_year, dtype: int64

Wie Sie sehen können, enthält der Datensatz vier verschiedene Jahre. Im Jahr 2023 gibt es mehr Daten als in jedem anderen Jahr.

Bisher haben wir den Datensatz geladen und einige Methoden verwendet, um den Datensatz zu verstehen. Kommen wir nun dazu, Schlussfolgerungen aus dem Datensatz zu ziehen. Lassen Sie mich zunächst einen Blick auf die High-10-Berufsbezeichnungen im Jahr 2023 werfen.

Eine der wichtigsten Phasen der Datenanalyse ist die Datenvisualisierung. Mit der Datenvisualisierung können Sie Ihre Daten besser verstehen und großartige Modelle erstellen. Bevor wir die Daten visualisieren, importieren wir die von uns verwendeten Bibliotheken und legen die Themen fest.

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()
sns.set(rc = {"determine.figsize":(10,6), "determine.dpi":300})

Wie wir oben gesehen haben, enthält der Datensatz 93 verschiedene Berufsbezeichnungen. Werfen wir nun einen Blick auf die High-10-Berufsbezeichnungen im Jahr 2023. Wählen wir zunächst das Jahr 2023 und das Jahr aus job_title Spalte und zeichnen Sie dann ein Balkendiagramm, um die High-10-Titel anzuzeigen.

# Filtering
jobs = df[df['work_year']==2023]['job_title'].value_counts().nlargest(10).reset_index()
# Creating graphic objects
fig, ax = plt.subplots()
# Drawing the barplot
ax = sns.barplot(ax = ax, information=jobs, y = jobs['index'], x = jobs.job_title)
# Setting the labels
ax.set(ylabel='Job Titles',xlabel='Counts', title='High 10 Job Titles in 2023')
# Including labels to the bars within the plot
ax.bar_label(ax.containers[0], padding = 2)

High 10 Berufsbezeichnungen im Jahr 2023

Wie Sie sehen, stehen Dateningenieure an der Spitze, gefolgt von Datenwissenschaftlern. Denn Information Engineering ist der neue Pattern.

Dateningenieure spielen eine entscheidende Rolle in datenwissenschaftlichen Projekten. Sie fragen sich vielleicht: Was macht ein Dateningenieur? Kurz gesagt bereiten Dateningenieure die Daten mithilfe von Pipelines vor, um das Modell zu erstellen.

Tremendous, wir haben die High-10-Berufsbezeichnungen gesehen. Schauen wir uns nun ihren Erfahrungsstand an.

Der Erfahrungsgrad bezieht sich auf einen Grad an Kompetenz und Fachwissen im Bereich der Datenwissenschaft, der Fähigkeiten in Bereichen wie Datenanalyse, Statistik, maschinelles Lernen, Datenvisualisierung und Programmierung umfasst.

In diesem Abschnitt befassen wir uns mit der Spalte „Erfahrungsstufe“. Schauen wir uns zunächst die eindeutigen Werte in dieser Spalte an.

df['experience_level'].distinctive()
# Output:
array(['SE', 'MI', 'EN', 'EX'], dtype=object)

Wie Sie sehen, gibt es 4 verschiedene Erfahrungskategorien. Ersetzen wir diese Werte durch ihre vollständigen Namen.

df['experience_level'] = df['experience_level'].change('EN','Entry-level/Junior')
df['experience_level'] = df['experience_level'].change('MI','Mid-level/Intermediate')
df['experience_level'] = df['experience_level'].change('SE','Senior-level/Professional')
df['experience_level'] = df['experience_level'].change('EX','Government-level/Director')

Betrachten wir nun den Erfahrungsstand der Mitarbeiter im Bereich Information Science.

# Creating graphic objects
fig, ax = plt.subplots()
# Calculating values for every class
sns.countplot(ax = ax, information = df, x = df.experience_level)
# Setting the labels
ax.set(xlabel='', ylabel='Counts', title='Expertise Ranges')
# Including labels to the bars within the plot
ax.bar_label(ax.containers[0])

Erfahrungsstufen

Wie Sie sehen, weisen die Positionen auf der höheren Ebene die höchste Anzahl auf, gefolgt von Positionen auf mittlerer Ebene und auf der unteren Ebene. Im Vergleich zu anderen Ebenen gibt es auf Direktorenebene weniger Positionen.

Schön, wir haben Erfahrungsniveau gesehen. Schauen wir uns nun die Beschäftigungsarten an

In den letzten Jahren kam es spürbar zu einem Anstieg der Entlassungen, was viele Arbeitnehmer dazu veranlasste, nach alternativen Beschäftigungsformen zu suchen. Eine der beliebtesten Optionen ist die freiberufliche Tätigkeit, die dank der Fortschritte in der Technologie immer rentabler geworden ist.

Schauen wir uns die Beschäftigungsarten im Bereich Information Science an. Lassen Sie mich zunächst einen Blick auf die einzigartigen Werte im werfen employment_type Spalte.

df['employment_type'].distinctive()
# Output:
array(['FT', 'CT', 'FL', 'PT'], dtype=object)

Wie Sie sehen, gibt es 4 verschiedene Beschäftigungsarten. Benennen wir sie mit um rename Methode.

df['employment_type'] = df['employment_type'].change('FT','Full-Time')
df['employment_type'] = df['employment_type'].change('PT','Half-Time')
df['employment_type'] = df['employment_type'].change('CT','Contract')
df['employment_type'] = df['employment_type'].change('FL','Freelance')

Lassen Sie uns nun die Anzahl der einzelnen Arbeitsarten entsprechend dem Erfahrungsniveau untersuchen.

# Creating graphic objects
fig, ax = plt.subplots()
# Calculating values for every class
sns.countplot(ax = ax, information = df, x = df.employment_type, hue = 'experience_level')
# Setting the labels
ax.set(xlabel='', ylabel='Counts', title='Variety of Employment Varieties')
# Including labels to the bars within the plot
ax.bar_label(ax.containers[0])
ax.bar_label(ax.containers[1])
ax.bar_label(ax.containers[2])
ax.bar_label(ax.containers[3])

Anzahl der Beschäftigungsarten

Wie Sie sehen, ist hier eine beträchtliche Anzahl von Menschen auf Vollzeitbasis beschäftigt. Unter den Vollzeitbeschäftigten sind die meisten leitende Angestellte. Wir beobachten, dass freiberufliche Tätigkeiten heutzutage weniger verbreitet sind

Großartig, wir haben die Beschäftigungsarten gesehen. Kommen wir nun zum Umgang mit den Durchschnittsgehältern nach Berufsbezeichnungen.

Die Datenwissenschaft ist in den letzten Jahren enorm gewachsen. In diesem Bereich haben sich viele Berufsbezeichnungen herausgebildet. Werfen wir einen Blick auf die durchschnittlichen Gehälter für Berufsbezeichnungen.

# Filtering and grouping
job_title_salary = df['salary_in_usd'].groupby(df['job_title']).imply().spherical(0).nlargest(15).sort_values(ascending = False).reset_index()
# Setting the determine dimension
plt.determine(figsize=(25,9))
# Creating graphic objects
fig, ax = plt.subplots()
# Drawing the bar plot
ax = sns.barplot(ax = ax, information = job_title_salary , y = job_title_salary.job_title, x = job_title_salary.salary_in_usd)
# Setting the labels
ax.set(ylabel='Job titles',xlabel='Wage in usd', title='High 15 Common Salaries by Job Titles')
# Including common salaries to the bars within the plot
ax.bar_label(ax.containers[0], padding = 2)

High 15 Durchschnittsgehälter nach Berufsbezeichnung

Wie wir erwartet haben, sind die Durchschnittsgehälter derjenigen, die in der Regel auf der Führungsebene beschäftigt sind, höher. Aufgrund des Developments zum Cloud Computing ist der Cloud-Datenarchitekt der zweithöchstbezahlte Beruf.

Schön, wir haben die durchschnittlichen Gehälter für Berufsbezeichnungen abgedeckt. Kommen wir zum Umgang mit Durchschnittsgehältern.

Wir alle fragen uns, wie hoch die Gehälter für den Bereich sind, in dem wir arbeiten. Dies ist ein wichtiger Faktor, der sich auf unsere Berufswahl und die allgemeine Arbeitszufriedenheit auswirken kann.

Werfen wir einen Blick auf die Durchschnittsgehälter für verschiedene Erfahrungsstufen.

# Grouping and filtering
avg_salaries = df.groupby('employment_type')['salary_in_usd'].imply().spherical(0).sort_values(ascending = False).reset_index()
# Creating graphic objects
fig, ax = plt.subplots()
# Drawing the bar plot
sns.barplot(ax =ax,information = df , x = 'employment_type', y = 'salary_in_usd',errorbar = None, hue = 'work_year')
# Setting the labels
ax.set(xlabel='', ylabel='{Dollars}', title='Common Salaries in {Dollars} Per 12 months')
# Including 2013 common salaries to the bars within the plot
ax.bar_label(ax.containers[3], padding = 2)

Durchschnittliche Gehälter in Greenback professional Jahr

Wie Sie sehen, sind die Durchschnittsgehälter für Vollzeitkräfte im Laufe der Jahre gestiegen. Es zeigt, dass Unternehmen Wert auf Datenwissenschaft legen. Die zweithöchsten Gehälter auf dem Grundstück erhalten Freiberufler, was ein klares Zeichen für den wachsenden Pattern bei freiberuflicher Tätigkeit ist.

Großartig, wir haben die durchschnittlichen Gehälter nach Erfahrungsniveau gesehen. Lassen Sie uns weitermachen und die Durchschnittsgehälter nach Arbeitsjahren ermitteln.

Information Science hat sich in den letzten Jahren zu einem herausragenden Fachgebiet entwickelt und es lohnt sich zu prüfen, ob sich dieser Pattern im Gehalt widerspiegelt. Werfen wir einen genaueren Blick auf den aktuellen Stand der Gehälter im Bereich Information Science, um ein besseres Verständnis dieses dynamischen und sich schnell entwickelnden Bereichs zu erlangen.

Dazu wählen wir zunächst die Gehälter aus, gruppieren diese Daten dann nach Jahren und ermitteln die Durchschnittswerte mit der Mittelwertmethode.

# Filtering and grouping
year_based_salary = df['salary_in_usd'].groupby(df['work_year']).imply()
# Setting the labels
plt.title("Common Salaries based mostly on Work 12 months")
plt.xlabel('Work 12 months')
plt.ylabel('Wage')
# Drawing the road plot
sns.lineplot(x=['2020', '2021', '2022','2023'], y=year_based_salary)
plt.present()

Durchschnittliche Gehälter basierend auf dem Arbeitsjahr

Wie Sie sehen, steigt das Durchschnittsgehalt für datengesteuerte Jobs jedes Jahr, wobei zwischen 2021 und 2022 ein besonders deutlicher Anstieg zu beobachten ist. Dieser Pattern unterstreicht die wachsende Nachfrage nach qualifizierten Fachkräften in diesem Bereich.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here