Big Data – Dateispeicherformate (Zeile/CSV vs. Spalte/Parkett) | von Ashish Garg | Juli 2023

0
21


Dieser Artikel stellt Ihnen die zeilenbasierten und spaltenbasierten Datenformate vor. Darüber hinaus zeigt es den Unterschied zwischen den beiden und ordnet am Ende die gängigen Datenspeicher einem der beiden zu.

Nehmen wir die Beispieldaten, die hier als Grundlage für die Studie dienen werden. Stellen Sie sich vor, ich habe eine Mitarbeitertabelle mit 5 Datensätzen für 4 Felder. Dasselbe ist in Abbildung 1 dargestellt.

Abbildung 1: Beispieldaten

Grundsätzlich gibt es nur zwei Möglichkeiten, wie die Daten in den Dateien gespeichert werden. Diese sind:

  1. Zeilenorientierte Speicherung
    Bei diesem Speichertyp werden Datenformate unterstützt, bei denen Daten zeilenweise auf der Computerfestplatte gespeichert werden.
  2. Spaltenorientierte Speicherung
    Bei diesem Speichertyp werden Datenformate unterstützt, bei denen Daten spaltenweise auf der Computerfestplatte gespeichert werden.

Zeilenorientierte Speicherung

Das beste Beispiel für die Erklärung der zeilenorientierten Daten ist das CSV-Format. Die Daten werden im CSV-Format als Liste von Zeilen gespeichert. Betrachten Sie wie im obigen Beispiel Zeilen als Block, der als einzelne Einheit im Speicher gespeichert wird. Etwas, das im folgenden Diagramm dargestellt ist.

Abbildung 2: CSV-Speicherformat

Spaltenorientierte Speicherung

Das beste Beispiel für die Erklärung der spaltenorientierten Daten ist das Parquet-Format. Die Daten werden im CSV-Format als Liste von Spalten gespeichert. Betrachten Sie wie bei Beispieldaten eine Spalte als Block, der als einzelne Einheit im Speicher gespeichert wird. Etwas, das im Diagramm unten dargestellt ist.

Abbildung 3: Parkett-Lagerformat

Wenn der Datensatz klein oder mittelgroß ist, spielt es keine Rolle, ob er zeilen- oder spaltenorientiert ist. Aber die Artwork und Weise, wie die Datenmenge wächst, und jetzt sprechen wir von Petabytes und Zetabytes an Daten. Daher ist es wichtig zu entscheiden, welches Datenformat Sie für Ihr Projekt in Betracht ziehen sollten.

Abbildung 4: Funktionsvergleich

Warum sollte man Column im heutigen Large-Information-Zeitalter als erste Wahl wählen?

Zeilenbasierte Dateien (wie CSV) sind im Vergleich zu spaltenbasierten Dateien (wie Parquet) normalerweise größer. Dies liegt daran, dass die Spaltenspeicher spaltenweise komprimiert sind und diese Komprimierung auf ihren Datentypen (Zeichenfolge, Datum/Uhrzeit, Ganzzahl usw.) beruht. Dies ist bei der zeilenbasierten Speicherung nicht der Fall, da hier ganze Zeilen gespeichert werden, die eine Kombination mehrerer Typen sind, und auf der Festplatte alle als String-Typen gespeichert werden, wenn wir zum Beispiel CSV nehmen.

Zweitens ist die Geschwindigkeit (Leistung) der wichtige Vorteil, den spaltenbasierte Dateien wie Parquet gegenüber zeilenbasierten Dateien haben. Diese Spaltendaten lassen sich sehr schnell scannen und extrahieren. Dies liegt daran, dass die Abfrage nur für eine Spalte ausgeführt wird und nicht von anderen Spalten abhängt.

Es gibt viele Datenformate, Cloud-Speicher und Backend-Datenbanken (relational und NoSQL). Schauen wir uns hier die Tabelle an, die erklärt, zu welcher Kategorie es gehört, basierend auf der Artwork und Weise, wie Daten auf der Disc gespeichert werden (Zeile oder Spalte).

Abbildung 5: Zuordnung beliebter Datenspeicher zu zeilenbasiert/spaltenbasiert

Das Diagramm hier zeigt die Einzelseitenansicht für alle oben behandelten Konzepte. Ich hoffe, das hilft Ihnen, es intestine zu verstehen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here