Attribution
Die folgenden Folien basieren auf
- Fundamentals of Data Visualization (link)
und folgen damit der
- Attribution-NonCommercial-NoDerivatives 4.0 International Lizenz (link)
Histogramm
- Beispiel Altergruppen von Passagieren
- Anzahl Datensätze pro Altergruppen
- Hier Bin-Größe 5
- Richtige Bin-Größe finden (ausprobieren)
Verschiedene Bin-Größen
- Bin-Größe 1 Jahr (a) zu klein und 15 Jahre zu groß (d)
- Bin-Größen 3 Jahre (b) und 5 Jahre (c) Jahre ok
Wahrscheinlichkeitsverteilung
- Besser als Histogramm bei kontinuierlichen Werten
- Teilweise Geschmackssache, was besser passt
Bandbreiten/Kerndichteschätzer
- a-c: Gaußkern mit unterschiedlicher Bandbreite
- d: Rechteckkern
Vorsicht bei Kerndichteschätzer
- Können Daten für sinnlose Wertebereiche vortäuschen
- Hier Wahrscheinlichkeit > 0 für negative Alter
Visualisierung mehrerer Verteilungen
- Unklar, ob Balken überlappen
- Höhe der Balken für weiblicher Passagiere schlecht vergleichbar
Transparente Balken
- Nicht klar, ob die blauen Balken bei 0 starten
- Nicht klar, was die dritte Farbe bedeutet
Mehrere Wahrscheinlichkeitsverteilungen
- Klareres Verständnis, was die Überlappung bedeutet
- Skalierung der Y-Achse
Separate Wahrscheinlichkeitsverteilungen
- Verhältnis von Männern und Frauen besser erkennbar
Genau zwei Verteilungen
- Horizontale Balkendiagramme
- Hier Alterspyramide
Viele Verteilungen
- Verteilung von Butterfett bei Kühen verschiedener Rasse
- Wahrscheinlichkeitsverteilungen besser als Histogramme