Home Up PDF Prof. Dr. Ingo Claßen
Visualization - Distributions - DSML

Attribution

The following slides are based on

  • Fundamentals of Data Visualization (link)
    and are following the
  • Attribution-NonCommercial-NoDerivatives 4.0 International License (link)

Histogramm

  • Beispiel Altergruppen von Passagieren
  • Anzahl Datensätze pro Altergruppen
  • Hier Bin-Größe 5
  • Richtige Bin-Größe finden (ausprobieren)

Verschiedene Bin-Größen

  • Bin-Größe 1 Jahr (a) zu klein und 15 Jahre zu groß (d)
  • Bin-Größen 3 Jahre (b) und 5 Jahre (c) Jahre ok

Wahrscheinlichkeitsverteilung

  • Besser als Histogramm bei kontinuierlichen Werten
  • Teilweise Geschmackssache, was besser passt

Bandbreiten/Kerndichteschätzer

  • a-c: Gaußkern mit unterschiedlicher Bandbreite
  • d: Rechteckkern

Boxplot

  • Einfach und informativ
  • Geeignet für gleichzeitige Darstellung vieler Verteilungen

Violinplot

  • Modernere Variante von Boxplot
  • Genügend Datenpunkte erforderlich

Visualisierung mehrerer Verteilungen

  • Unklar, ob Balken überlappen
  • Höhe der Balken für weiblicher Passagiere schlecht vergleichbar

Mehrere Wahrscheinlichkeitsverteilungen

  • Klareres Verständnis, was die Überlappung bedeutet
  • Skalierung der Y-Achse

Separate Wahrscheinlichkeitsverteilungen

  • Verhältnis von Männern und Frauen besser erkennbar

Genau zwei Verteilungen

  • Horizontale Balkendiagramme
  • Hier Alterspyramide

Viele Verteilungen

  • Verteilung von Butterfett bei Kühen verschiedener Rasse
  • Wahrscheinlichkeitsverteilungen besser als Histogramme

Temperaturverteilungen - Boxplots

Temperaturverteilungen - Violinplots

Temperaturverteilungen - Stripplot

  • Anzeige individueller Datenpunkte
  • Schlecht bei überlappenden Punkten

Verzitterung (Jittering)

  • Punkte werden künstlich verzittert
  • Besserer Überblick über die Verteilungen

Temperaturverteilungen - Sinaplot

  • Kombination von Violinplots und verzittertem Stripplot

Kammlinenplot (Ridgeline Plot)

  • Halbe Violinplots gedreht um 90 Grad

Sehr viele Verteilungen

  • Filmlängen im Verlauf der Jahre
  • Kammlinenplot gut geeignet