Visualisierung von Verteilungen

Visualisierung von Verteilungen

Attribution

Die folgenden Folien basieren auf

  • Fundamentals of Data Visualization (link)
    und folgen damit der
  • Attribution-NonCommercial-NoDerivatives 4.0 International Lizenz (link)

Histogramm

  • Beispiel Altergruppen von Passagieren
  • Anzahl Datensätze pro Altergruppen
  • Hier Bin-Größe 5
  • Richtige Bin-Größe finden (ausprobieren)

Verschiedene Bin-Größen

  • Bin-Größe 1 Jahr (a) zu klein und 15 Jahre zu groß (d)
  • Bin-Größen 3 Jahre (b) und 5 Jahre (c) Jahre ok

Wahrscheinlichkeitsverteilung

  • Besser als Histogramm bei kontinuierlichen Werten
  • Teilweise Geschmackssache, was besser passt

Bandbreiten/Kerndichteschätzer

  • a-c: Gaußkern mit unterschiedlicher Bandbreite
  • d: Rechteckkern

Vorsicht bei Kerndichteschätzer

  • Können Daten für sinnlose Wertebereiche vortäuschen
  • Hier Wahrscheinlichkeit > 0 für negative Alter

Visualisierung mehrerer Verteilungen

  • Unklar, ob Balken überlappen
  • Höhe der Balken für weiblicher Passagiere schlecht vergleichbar

Transparente Balken

  • Nicht klar, ob die blauen Balken bei 0 starten
  • Nicht klar, was die dritte Farbe bedeutet

Mehrere Wahrscheinlichkeitsverteilungen

  • Klareres Verständnis, was die Überlappung bedeutet
  • Skalierung der Y-Achse

Separate Wahrscheinlichkeitsverteilungen

  • Verhältnis von Männern und Frauen besser erkennbar

Genau zwei Verteilungen

  • Horizontale Balkendiagramme
  • Hier Alterspyramide

Viele Verteilungen

  • Verteilung von Butterfett bei Kühen verschiedener Rasse
  • Wahrscheinlichkeitsverteilungen besser als Histogramme
Top Sitemap 12 11 10 9 8 7 6 5 4 3 2 1 0