Dieser Artikel stellt Ihnen die zeilenbasierten und spaltenbasierten Datenformate vor. Darüber hinaus zeigt es den Unterschied zwischen den beiden und ordnet am Ende die gängigen Datenspeicher einem der beiden zu.
Nehmen wir die Beispieldaten, die hier als Grundlage für die Studie dienen werden. Stellen Sie sich vor, ich habe eine Mitarbeitertabelle mit 5 Datensätzen für 4 Felder. Dasselbe ist in Abbildung 1 dargestellt.
Grundsätzlich gibt es nur zwei Möglichkeiten, wie die Daten in den Dateien gespeichert werden. Diese sind:
- Zeilenorientierte Speicherung
Bei diesem Speichertyp werden Datenformate unterstützt, bei denen Daten zeilenweise auf der Computerfestplatte gespeichert werden. - Spaltenorientierte Speicherung
Bei diesem Speichertyp werden Datenformate unterstützt, bei denen Daten spaltenweise auf der Computerfestplatte gespeichert werden.
Zeilenorientierte Speicherung
Das beste Beispiel für die Erklärung der zeilenorientierten Daten ist das CSV-Format. Die Daten werden im CSV-Format als Liste von Zeilen gespeichert. Betrachten Sie wie im obigen Beispiel Zeilen als Block, der als einzelne Einheit im Speicher gespeichert wird. Etwas, das im folgenden Diagramm dargestellt ist.
Spaltenorientierte Speicherung
Das beste Beispiel für die Erklärung der spaltenorientierten Daten ist das Parquet-Format. Die Daten werden im CSV-Format als Liste von Spalten gespeichert. Betrachten Sie wie bei Beispieldaten eine Spalte als Block, der als einzelne Einheit im Speicher gespeichert wird. Etwas, das im Diagramm unten dargestellt ist.
Wenn der Datensatz klein oder mittelgroß ist, spielt es keine Rolle, ob er zeilen- oder spaltenorientiert ist. Aber die Artwork und Weise, wie die Datenmenge wächst, und jetzt sprechen wir von Petabytes und Zetabytes an Daten. Daher ist es wichtig zu entscheiden, welches Datenformat Sie für Ihr Projekt in Betracht ziehen sollten.
Warum sollte man Column im heutigen Large-Information-Zeitalter als erste Wahl wählen?
Zeilenbasierte Dateien (wie CSV) sind im Vergleich zu spaltenbasierten Dateien (wie Parquet) normalerweise größer. Dies liegt daran, dass die Spaltenspeicher spaltenweise komprimiert sind und diese Komprimierung auf ihren Datentypen (Zeichenfolge, Datum/Uhrzeit, Ganzzahl usw.) beruht. Dies ist bei der zeilenbasierten Speicherung nicht der Fall, da hier ganze Zeilen gespeichert werden, die eine Kombination mehrerer Typen sind, und auf der Festplatte alle als String-Typen gespeichert werden, wenn wir zum Beispiel CSV nehmen.
Zweitens ist die Geschwindigkeit (Leistung) der wichtige Vorteil, den spaltenbasierte Dateien wie Parquet gegenüber zeilenbasierten Dateien haben. Diese Spaltendaten lassen sich sehr schnell scannen und extrahieren. Dies liegt daran, dass die Abfrage nur für eine Spalte ausgeführt wird und nicht von anderen Spalten abhängt.
Es gibt viele Datenformate, Cloud-Speicher und Backend-Datenbanken (relational und NoSQL). Schauen wir uns hier die Tabelle an, die erklärt, zu welcher Kategorie es gehört, basierend auf der Artwork und Weise, wie Daten auf der Disc gespeichert werden (Zeile oder Spalte).
Das Diagramm hier zeigt die Einzelseitenansicht für alle oben behandelten Konzepte. Ich hoffe, das hilft Ihnen, es intestine zu verstehen.