BigQuery ML (Machine Studying) ist eine integrierte Funktion im vollständig verwalteten, serverlosen Knowledge Warehouse-Dienst BigQuery von Google Cloud. Es ermöglicht Benutzern das Erstellen, Trainieren und Bewerten von Modellen für maschinelles Lernen mithilfe der Commonplace-SQL-Sprache. Dies vereinfacht den Prozess erheblich, macht den Export von Daten in spezielle ML-Instruments überflüssig und macht maschinelles Lernen für SQL-Experten zugänglicher.
BigQuery ML wird hauptsächlich in prädiktiven Modellierungs- und maschinellen Lernaufgaben eingesetzt. Es unterstützt eine Reihe von Modellen, darunter unter anderem lineare Regression, logistische Regression, Ok-Means-Clustering und Zeitreihenprognosen.
Dieses Instrument ist besonders für Datenanalysten von Vorteil, da es ihnen ermöglicht, ihre SQL-Kenntnisse zu nutzen, um Modelle für maschinelles Lernen zu erstellen, ohne eine neue Programmiersprache erlernen oder sich mit komplexen ML-Frameworks befassen zu müssen. Darüber hinaus lässt sich BigQuery ML nahtlos in andere Google Cloud-Dienste integrieren und bietet so eine ganzheitliche Plattform für Datenanalyse und Vorhersagemodellierung.
Stellen wir uns vor, wir haben in BigQuery einen Datensatz mit historischen Verkaufsdaten für ein Einzelhandelsunternehmen. Unser Ziel ist es, anhand dieser Daten zukünftige Umsätze vorherzusagen.
Wir beginnen mit dem Coaching eines linearen Regressionsmodells anhand unserer historischen Daten. So können Sie dies mit BigQuery ML erreichen:
CREATE OR REPLACE MODEL `my_project.my_dataset.sales_forecast_model`
OPTIONS(model_type='linear_reg') AS
SELECT
total_sales AS label,
month,
day_of_week,
holidays
FROM
`my_project.my_dataset.sales_data`
Der CREATE OR REPLACE MODEL
Die Anweisung generiert ein neues BigQuery ML-Modell. Der model_type
Für die lineare Regression ist die Possibility auf „linear_reg“ gesetzt. Der AS SELECT
Die Klausel gibt die Daten an, die zum Trainieren des Modells verwendet werden.
Sobald das Modell trainiert wurde, können wir seine Leistung mithilfe von bewerten ML.EVALUATE
Funktion:
SELECT
*
FROM
ML.EVALUATE(MODEL `my_project.my_dataset.sales_forecast_model`)
Diese Abfrage gibt eine Reihe von Bewertungsmetriken für das Modell zurück, darunter der mittlere absolute Fehler (MAE), der mittlere quadratische Fehler (MSE) und das R-Quadrat, die einen Hinweis auf die Genauigkeit des Modells liefern.
Die Ausgabe könnte so aussehen:
+------+-------------------+-------------------+
| row | mean_absolute_err | mean_squared_err |
+------+-------------------+-------------------+
| 1 | 10.7893 | 234.5467 |
+------+-------------------+-------------------+
Nachdem wir unser Modell evaluiert und nach Bedarf verfeinert haben, können wir es nun verwenden, um zukünftige Umsätze vorherzusagen ML.PREDICT
Funktion:
SELECT
month,
day_of_week,
holidays,
predicted_label
FROM
ML.PREDICT(MODEL `my_project.my_dataset.sales_forecast_model`,
(SELECT
month,
day_of_week,
holidays
FROM
`my_project.my_dataset.future_sales_data`))
In dieser Abfrage ML.PREDICT
wendet das trainierte Modell auf neue Daten an (hier future_sales_data
), was zu Vorhersagen führt (predicted_label
) für zukünftige Verkäufe.
Die Ausgabe könnte so aussehen:
+-------+-------------+----------+------------------+
| month | day_of_week | holidays | predicted_label |
+-------+-------------+----------+------------------+
| 11 | 5 | 0 | 234.1234 |
| 12 | 4 | 1 | 456.7890 |
+-------+-------------+----------+------------------+
Zusammenfassend stellt BigQuery ML eine zugängliche, robuste Plattform für Datenanalysten dar, mit der sie maschinelle Lernaufgaben in einer vertrauten SQL-Umgebung ausführen können, wodurch ihre Vorhersagemodellierungsfunktionen erheblich verbessert werden.