Wir erfassen Daten, generieren Daten, analysieren Daten, wir sprechen über Daten und wir suchen sie auch mal. Aber kennen wir sie? Welche Arten von Daten unser tägliches Leben in der Automatisierung beeinflussen, darüber habe ich mich mit Nicolas Le Ny ausgetauscht, CEO von Everdyn, einem langjährigen AVEVA Technology Partner.
Fragt man Google nach der Definition von Daten erhält man antworten wie:
- "durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene [Zahlen]werte, auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende Angaben, formulierbare Befunde"
- "die technischen Daten eines Geräts" oder
- "Daten bezeichnet als Plural von Datum Fakten, Zeitpunkte oder kalendarische Zeitangaben und als Pluralwort gemeinsprachlich die durch Beobachtungen, Messungen u. ä. gewonnenen Zahlenwerte und darauf beruhenden Angaben oder formulierbaren Befunde. (Wikipedia)"
Worauf wir uns einigen können: Daten sind die Grundlage für Argumentation und eine Quelle für sachliche Informationen. Ohne Daten sind Entscheidungen nichtig und oft sogar gefährlich. Aber wenn wir nicht entscheiden können, können wir uns auch nicht bewegen. Das wäre eine Enttäuschung für Leonardo Da Vinci, der einmal sagte: "Leben ist Bewegung".
Abbildung 1 Planetenbewegungen, dargestellt als zyklische Linien auf einem räumlich-zeitlichen Raster, von einem unbekannten Astronomen in einer Abschrift des Kommentars von Macrobius zu Ciceros In Somnium Scipionis, 10. oder 11. Jahrhundert n. Chr. Nachgedruckt in [95].
Abbildung 2 Trendlinie, die das Interesse an dem Wort "Daten" im Laufe der Zeit zeigt. Quelle: trends.google
Abbildung 3 Karte, die das Interesse an dem Wort "data" nach Region im Jahr 2022 zeigt. Quelle: trends.google
Wie in Abbildung 2 und 3 zu sehen ist, sind Daten überall auf der Welt beliebt und das wird wohl auch so bleiben. Das bedeutet auch, dass es im Internet eine große Anzahl an Artikeln, Zitaten und Definitionen gibt. Zusammen mit Nicolas Le Ny erforsche ich hier die Geschichte der Daten, lege die relevanten Begriffe fest, liste Datentypen auf und kläre die Subjektivität von Datentypen.
Wie alles begann
Laut Merrieb-Webster's Wörterbuch wurde der Begriff "Datum" erstmals 1646 verwendet und bedeutet "etwas Gegebenes oder Zugelassenes, insbesondere als Grundlage für Schlussfolgerungen oder Ableitungen". Das Online-Etymologiewörterbuch informiert uns, dass sich die Bedeutung ab 1897 als numerische Fakten entwickelt hat, die für künftige Referenzen gesammelt werden. Und da mal eine Frage am Rande: Haben wir schon von den Ishango-Knochen gehört? Huylebrouck erwähnt in "Afrika und die Mathematik", dass [1] der älteste mathematische Fund der Ishango-Stab ist, der ein Alter von 20.000 Jahre geschätzt wird.
Abbildung 4. Der Ishango-Knochen in der Ausstellung des Königlichen Belgischen Instituts für Naturwissenschaften
Gegenseitiges Verständnis
Um eine gemeinsame Gesprächsbasis zu schaffen, ist es wichtig, sich vor Augen zu halten, dass dieses Thema sehr populär ist, so dass wir vielleicht verschiedene Wörter hören oder lesen, die fast dieselbe Definition haben, oder Synonyme. Prüfen Sie also im Gespräch mit Kunden oder Kollegen, ob Sie eine gemeinsame Sprache sprechen, um ein gegenseitiges Verständnis und eine solide Grundlage für die Entwicklung Ihres Projekts zu schaffen.
Begrifflichkeiten
(1) Daten: sind eine Sammlung von Werten, die man nur beobachten kann, wenn man sie ansieht. Beispiel: "Hallo", 2, 3,5 , null, "3,2 pH"
(2) Bedeutung von Daten: Eine Sammlung von Werten, die zu einer Reihe von Kontexten gehören und die mit dem Publikum "sprechen", wenn sie präsentiert werden. Fragen, Neugier, Gedanken zur Musterfindung tauchen in unserem Kopf auf, wenn wir auf aussagekräftige Daten stoßen, im Gegensatz zu einfachen Daten.
Beispiel:
- [Kontext][Sammlung von Werten ] → [Arbeitszeit] [10 Uhr, 11 Uhr, ...]
- [Kontext][Sammlung von Werten ] → [Maschinenzustand] ["working" , "stopped", "paused,"...]
- [Kontext][Sammlung von Werten ] → [Startzeit] ["12Uhr" , "15Uhr", "19Uhr","...]
- [Kontext][Sammlung von Werten ] → [Endzeit] ["15Uhr" , "17Uhr", "14Uhr"...]
Zusatzfrage: Was wäre ein geeignetes Diagramm, um dieses Beispiel zu visualisieren?
Datenquellentabelle: ist eine Tabelle, die aus Zeilen und Spalten besteht, die Daten und einen Kontext enthalten, in dem aussagekräftige Daten durch das Produkt der letzteren erhalten werden. Unsere Datenquellentabelle kann von verschiedenen Verbindungen oder "Quellen" wie Json, Datenbanken, die Daten von Akteuren erhalten, die wir in (7) definieren, generiert werden.
Abbildung 5. Eine Tabelle mit einer Sammlung von Daten, die mit dem Kontext verbunden sind.
Abbildung 5 zeigt 4 Datensammlungen 1, 2, 3 und 4, die jeweils mit den Kontexten "TagName", "Building", "Product" und "UnitPrice" verknüpft sind. Wir können intuitiv davon ausgehen, dass diese Tabelle Informationen aus einer Produktionsfabrik darstellt, wenn sowohl der Kontext als auch die Daten korrekt angegeben sind.
Zeile: ist eine horizontale Linie, die aus einer Sammlung von Werten besteht, die mit einem Kontext verbunden sind, der in jeder Spalte, die die Zeile bildet, angegeben ist.
Spalte: ist eine vertikale Linie, die sich aus einer Sammlung von Werten zusammensetzt, die mit dem einzigen gegebenen Kontext verbunden sind, der die Spalte darstellt, die meist im Kopfbereich angegeben ist.
Datenfeld: ist eine Zelle in der Tabelle, die einen Datenwert enthält.
Akteur: ist ein Datenlieferant. In der Industrie sind unsere Akteure normalerweise Sensoren und Software.
Element: ist eine Entität und einer der grundlegenden Bausteine der Datenvisualisierung. Wir bezeichnen es auch als "Datum". Es wird in unserer Tabelle in Abbildung 4 als eine Zeile dargestellt. Es handelt sich um die Umwandlung der in den Elementen angegebenen Werte, die später für die visuelle Kodierung verwendet werden.
Datentypen
Nach dem Buch "Data Types, Graphical Marks, and Visual Encoding Channels" von Jeffrey können Datenwerte verschiedene Formen von Messungen darstellen. Unser Problem besteht darin, unsere Formen zu identifizieren, mit anderen Worten, unsere Datentypen, die uns helfen, unsere "comp" zu definieren.
Nach "Data Types, Graphical Marks, and Visual Encoding Channels" können Datenwerte verschiedene Formen von Messungen darstellen. Unser Problem besteht darin, unsere Formen zu identifizieren, mit anderen Worten, unsere Datentypen, die uns helfen, unsere "Vergleichstypen" zu definieren. In diesem Abschnitt werden wir die Datentypen erläutern, erklären, dass Daten zu mehreren Datentypen gehören können, und einige Beispiele für Datentypen anführen, die wir in industriellen Anwendungsfällen verwenden.
Warum Typen, warum Kategorien?
Die älteste Erwähnung, die versucht, die Notwendigkeit der Kategorisierung von Daten zu erklären, geht auf das Jahr 1946 zurück, und S.S. Stevens stellt in "On the Theory of Scales of Measurement" fest, dass die British Association for the Advancement of Science über das Problem der Messung debattierte [...] und über die Möglichkeit "quantitativer Schätzungen von sensorischen Ereignissen" berichtete, was einfach bedeutet: Ist es möglich, menschliche Empfindungen zu messen. In der Industrie kategorisieren wir Daten in verschiedene Typen, um Beziehungen, Vergleiche, Abweichungen, Proportionen und Verteilungen bei der Erstellung von Widgets aufzuzeigen.
Identifizierung eines Datentyps
Nominale Daten
Nominale Daten werden verwendet, um Daten zu kategorisieren und die Gleichheit von Werten zu vergleichen.
Abbildung 6. Beispiel für kategorische Daten - Produkt A, Produkt B und Produkt C sind Werte, die kategorische Daten darstellen. Wir können nur vergleichen, ob Produkt X gleich oder verschieden von Produkt Y ist.
Ordinale Daten enthalten Werte, die wir zum Vergleich in einer bestimmten Reihenfolge verwenden können.
Abbildung 6 zeigt ordinale Daten mit zahlenbasierten Werten.
Abbildung 7 Beispiel für ordinale Daten mit textbasierten Werten
Im Vergleich dazu enthält Abbildung 7 ordinale Daten mit textbasierten Werten. In diesen Beispielen können wir Werte wie "Ist das Jahr 2000 größer als das Jahr 1999?" oder "Ist der Hochdruck größer als ein Schwellenwert?"
Quantitative Daten
Quantitative Daten enthalten Werte, bei denen wir Unterschiede zwischen ihnen feststellen können, z. B. Abstände oder Proportionen.
Abbildung 8 Beispiel für quantitative Daten
Wie wir sehen, handelt es sich bei Year um dasselbe Beispiel, das zuvor zur Veranschaulichung von Ordinaldaten verwendet wurde. Wir werden diesen Punkt im nächsten Abschnitt "Das Problem der Messung" klären. In der Zwischenzeit können wir in diesem Beispiel Fragen stellen wie "Wie viele Jahre sind zwischen 2000 und 1997 vergangen oder wie groß ist der Anteil zwischen 1999 und 1998".
Zeitliche Daten
Zeitliche Daten werden verwendet, um Intervalle oder punktuelle Momente in der Zeit aufzuzeigen, in denen unsere Datenfelder "gültig" sind. Mit anderen Worten, wir verwenden zeitliche Daten, um auftretende Ereignisse, Aktionen oder
Dies ist einer unserer wichtigsten Datentypen in der Industrie, da die Zeit für die Abläufe in den Fabriken entscheidend ist.
Abbildung 9 Beispiel für quantitative Daten
Datumszeiten können standardisiert oder nicht standardisiert sein. Man kann das ISO-Datums-Zeit-Format verwenden oder einfach Datums-Strings wie "Samstag, 22. Januar 2022". Es wird jedoch empfohlen, formatierte Datumszeiten zu verwenden. Nachfolgend finden Sie eine Liste von Beispielen für formatierte Datumsangaben:
- Jahr: 2021,2022...
- Quartal: Quartal 1, Quartal 2, Quartal 3, Quartal 4
- Quartal Jahr: Quartal 1 2022, Quartal 2 2021, Quartal 3 2020, Quartal 4 2022
- Monat: April, Mai, Juni ...
- Monat Jahr: April 2022, Mai 2022, Juni 2021 ...
- Woche: 28,29 ( Woche eines Jahres )
- Tag: 14,15 ... 31 ( Tag eines Monats )
- Tag der Woche: Dienstag, Mittwoch
- Tag des Jahres: 194,195...
- Stunde: 9, 16
- Minute: 30,60
- Sekunde: 20, 45 ,60
- Datum: 14.07.2020, 13.07.2022 ...( TT/MM/JJJJ )
- Uhrzeit: 07/14/2020 12:00:00 AM, 07/13/2022 14:30:00 PM ..( DD/MM/YYYYY HH:MM:SS (AM/PM) )
- Uhrzeit: 12:00:00
Das Problem mit der Messung
Nach S.S. Stevens und N.R. Campbell in "On the Theory of Scales of Measurement" ist Messen im weitesten Sinne definiert als die Zuordnung von Zahlen zu Objekten oder Ereignissen nach bestimmten Regeln. Wenn wir uns also an diese allgemeine Definition halten, müssen wir bei der Identifizierung unserer Datentypen vorsichtig sein, da sie offen für Interpretationen und von Einzelpersonen festgelegte Regeln sind. Wie bereits in "Identifizierung eines Datentyps" erwähnt, haben wir gesehen, dass die Jahreszahl sowohl ein Ordinal- als auch ein Quantitätsdatentyp sein kann. Um den Datentyp zu bestimmen, müssen wir die übrigen Datenquellen und die Informationen, die wir an unsere Zielgruppe weitergeben möchten, berücksichtigen.
Anwendung
Lassen Sie uns unsere Typen anhand von Beispielen erläutern
Beispiel für nominale Daten:
Abbildung 10 Beispiel für ordinale Daten
Abbildung 10 ist ein Sankey-Diagramm. Unser ordinaler Datentyp in diesem Beispiel sind Energiequellen wie "Erdgas, Strom, Wärme...". Eine Möglichkeit, nominale Daten zu veranschaulichen, besteht darin, sie visuell zu kodieren, indem man Formen wie die Rechtecke in diesem speziellen Beispiel verwendet.
Beispiel für ordinale Daten
Abbildung 11 Beispiel für ordinale Daten
Abbildung 11 zeigt ein Beispiel für ein gestapeltes Balkendiagramm, das den Energieverbrauch verschiedener Produkte über die Jahre hinweg darstellt. Der Kontext "Jahr" ist ein ordinaler Datentyp, der visuell kodiert ist und die Position verwendet, um ein Gefühl für die Rangordnung zu vermitteln. Wir können diese Reihenfolge erkennen, wenn wir auf der X-Achse von rechts nach links die Jahre positionieren.
Beispiel für quantitative Daten
Zeigen Sie die Jahre in einem Liniendiagramm an, um die Stundenunterschiede zwischen den einzelnen Jahren zu vergleichen.
Abbildung 12 Beispiel für quantitative Daten
Das Beispiel in Abbildung 12 veranschaulicht eine Möglichkeit, quantitative Datentypen anzuzeigen. Wir wollen nämlich unseren maximalen Energieverbrauch für drei Jahre herausfinden. Wir verwenden den Farbwert (Degradation), um visuell zu verdeutlichen, dass eine "dunklere" Farbe attraktiver ist und daher einen wichtigen Wert darstellen sollte als hellere Farbwerte. Wir verwenden auch die Größe, um ein Gefühl für eine "größere oder kleinere" Menge zu vermitteln.
Beispiel für zeitliche Daten
Abbildung 13: Beispiel für zeitliche Daten
Dieses Beispiel zeigt ein typisches Gantt-Diagramm. Bei unseren zeitlichen Daten handelt es sich um die Datumszeit, formatiert als Tag HH:MM. Wir visualisieren sie mit Gantt-Diagrammen, die sich hervorragend für die Darstellung von Ereignissen, Zeitleisten und Zeitplänen eignen. In Abbildung 11 sehen wir, dass Größe und Position zur Darstellung der Zeit verwendet werden. Die Rechteckformen bestimmen die Länge unserer Intervalle, und die Position legt fest, wann das Ereignis auf unserer Zeitachse eingetreten ist.
Schlussfolgerung
Wir können daraus schließen, dass die Kenntnis des Datentyps uns hilft, die Art der visuellen Kodierung und die Attribute zu bestimmen, die wir bei der Gestaltung unserer Dashboards und Berichte wählen können. Es ist jedoch wichtig, daran zu denken, dass sich Datentypen nicht gegenseitig ausschließen und dass Daten je nach Kontext und gewünschtem Ergebnis zu verschiedenen Typen gehören können.
Was haben Sie neues über Daten gelernt oder was sollten wir Ihrer Meinung nach ergänzen?
Quellen
- [1] Huylebrouck, D. (2019). Africa and Mathematics: From Colonial Findings Back to the Ishango Rods.
- [2] observablehq.com. (2019). Data Types, Graphical Marks, and Visual Encoding Channels. [online] Available at: https://observablehq.com/@uwdata/data-types-graphical-marks-and-visual-encoding-channels
- [3] Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, [online] 103(2684), pp.677–680. Available at: http://psychology.okstate.edu/faculty/jgrice/psyc3214/Stevens_FourScales_1946.pdf [Accessed 14 Nov. 2019].