Verzerrungen

Verzerrungen – der Begriff: Bias(*) – eine Übersicht

Bias (Verzerrung) bezeichnet im Daten- und BI-Kontext eine systematische Abweichung zwischen dem, was ein System abbildet, und der tatsächlichen Realität. Ein BI-System arbeitet nie direkt mit der Welt, sondern mit einem Modell dieser Welt: Daten, die über operative Systeme, Sensoren, Formulare, Logs oder externe Quellen erfasst und aufbereitet werden. Genau an dieser Schnittstelle können Verzerrungen entstehen – durch Auswahl, Erhebung, Verarbeitung oder Interpretation der Daten.

Entscheidend ist: Bias ist kein Zufall. Zufällige Fehler mitteln sich meist heraus, systematische Verzerrungen dagegen ziehen sich konsequent durch Reports, Dashboards, Data-Mining-Ergebnisse und Management-Entscheidungen. Ein „technisch perfektes“ System kann also trotzdem hochgradig verzerrte Einsichten liefern, wenn die zugrunde liegende Datengrundlage oder ihre Auswahl schief ist.

 

BI arbeitet immer mit einem Ausschnitt der Realität

Jede Datenerhebung ist eine Entscheidung: Was wird gemessen, wann, bei wem und unter welchen Bedingungen? In Business-Intelligence-Systemen bedeutet das:

  • Nur Ereignisse, die von Prozessen erfasst werden, tauchen später in Analysen auf.
  • ETL-Strecken entscheiden, welche Datensätze ins Data Warehouse gelangen – und welche nicht.
  • Filter und Selektionen im KDD-Prozess bestimmen, welche Fälle in Modellen „sichtbar“ sind.

Bias entsteht also oft nicht im Algorithmus, sondern in der Datenselektion davor: Wenn nur Beschwerdefälle erfasst werden, wirkt die Welt kritischer, als sie ist; wenn nur loyale Kunden im Datensatz landen, wirkt alles stabiler, als es tatsächlich ist. BI zeigt dann ein korrekt berechnetes, aber dennoch verzerrtes Bild.

 

Bias wirkt direkt auf Entscheidungen und Kennzahlen

Bias ist kein theoretisches Schönheitsproblem, sondern schlägt unmittelbar auf Kennzahlen, Prognosen und Maßnahmen durch. Selektionsbias kann z. B. zu falschen Churn-Modellen führen, Reporting Bias zu überdramatisierten Stimmungsbildern aus Social Media, temporal bedingter Bias zu Entscheidungen auf Basis veralteter Daten.

Umgekehrt heißt das: Wer Bias aktiv adressiert – durch bewusste Datenauswahl, transparente Definitionen, dokumentierte Datenherkunft und regelmäßige Qualitätsprüfungen – erhöht direkt die Entscheidungsqualität im Unternehmen. Saubere Datenselektion ist damit kein Luxusdetail, sondern eine Grundvoraussetzung für jede seriöse Business-Intelligence-Architektur.

 
      

Tipp: Zeile anklicken, um sie zu markieren. Mit den Buttons kannst du die Tool-Spalten filtern.

Bias-Art (**) Definition (kurz) Wie im BI-Kurs (**) genannt? Wie erkennt man das in R? Wie erkennt man das in PowerBI/DAX? Wie erkennt man das in Python?
Selection Bias Systematische Über- oder Unterrepräsentation bestimmter Gruppen in den Daten. Als Coverage-Fehler bei Datenqualität (Einheit 2). Häufigkeiten nach Bundesstaat, LandKey mit dplyr::count(..., sort = TRUE) prüfen. In Power BI: Spalte Bundesstaat in einer Matrix/Bar-Chart, ungleichmäßige Verteilung & Filter prüfen. Mit value_counts(normalize=True) auf Spalten wie state/country in pandas.
Sampling Bias Stichprobe ist nicht repräsentativ für die Grundgesamtheit. Implizit Teil der Coverage-Problematik. Vergleich von Stichproben- mit Referenzverteilungen via chisq.test(). Measure mit erwarteten Anteilen vs. tatsächlichen Anteilen und Visualisierung in einem Säulendiagramm. Chi²-Test mit scipy.stats.chisquare auf beobachtete vs. erwartete Häufigkeiten.
Survivorship Bias Nur „Überlebende“ (z. B. aktive Kunden) werden betrachtet, Ausfälle fehlen. Nicht explizit, aber als fehlende/ausgefilterte Fälle (Coverage). Mit anti_join() prüfen, welche Kunden/Bestellungen in Historie fehlen (z. B. stornierte Aufträge). Separate Tabellen für inaktive/abgesprungene Kunden einbinden und mittels Relationship/Filter sichtbar machen. Set-Differenzen von IDs (z. B. set(all_customers) - set(active_customers)).
Reporting Bias Daten werden unvollständig oder selektiv gemeldet (z. B. freiwillige Angaben). Als Fehlende Werte / Verschmutzungen im Skript. colSums(is.na(...)) und Muster fehlender Werte für Felder wie Phone, Email analysieren. In Power Query NA/Null-Anteile je Spalte berechnen und in einer Datenqualitäts-Tabelle visualisieren. Mit df.isna().mean() Spalten mit hohen Null-Anteilen erkennen.
Measurement Bias Systematisch falsche Messung (falsche Einheit, Format, Skala). Als Verschmutzung von Daten (Einheit 2). Preis-/Umsatz-Spalten mit Konvertierung prüfen (gsub() für „1.804,99“ → numeric) und Extremwerte mit summary(). Power Query: Datentypen explizit setzen (Währung/Zahl), Fehlerzeilen im Datenvorschau-Fenster anzeigen lassen. Strings mit deutschem Format per str.replace() bereinigen und astype(float); Extremwerte via .describe().
Recall Bias Erinnerungsfehler in Selbstauskünften (v. a. bei Umfragen). Im Skript nicht fokussiert. Bei Fragebogendaten: Inkonsistenz zwischen Zeitangaben (z. B. Ereignis vs. Datum) prüfen. Vergleich von Fragebogenfeldern mit Transaktions-/Protokolldaten in einem Report. Korrelation von Self-Report-Vars mit Logs analysieren; auffällige Abweichungen markieren.
Observer Bias Interpretation/Erfassung wird durch Erwartung des Beobachters verzerrt. Nicht explizit, aber relevant für KPI-Design. Mehrere Analysten denselben Code/Plot bauen lassen und Ergebnisse vergleichen. Alternative Visuals/Measures in einem Bericht nebeneinanderstellen (z. B. verschiedene KPI-Definitionen). Notebook-Reviews und automatisierte Tests der Auswertungslogik (z. B. pytest für Datenpipelines).
Confirmation Bias Nur nach Mustern gesucht, die die eigenen Hypothesen bestätigen. Im Skript nicht namentlich, aber methodisch relevant. Explorative Analysen systematisch ergänzen: z. B. skimr, Korrelationen, alternative Modelle testen. Berichte mit mehreren Sichten (Drill-downs, alternative Filter) statt nur einer „bequemen“ Kennzahl. Hypothesengetriebene vs. explorative EDA mit pandas/seaborn klar trennen.
Algorithmic Bias Bestimmte Muster/Gruppen werden durch den Algorithmus systematisch bevorzugt. Als Unterschied zwischen DM-Verfahren / Modellklassen (Einheit 2). Performance-Metriken nach Segment (z. B. Fehlerquoten nach Bundesstaat) für ein Modell in R vergleichen. Machine-Learning-Modelle in Power BI (z. B. Azure ML) nach Kundensegment testen und visuell vergleichen. Fairness-Analysen (Accuracy, FPR, FNR pro Gruppe) mit scikit-learn und ggf. Fairness-Bibliotheken.
Feature Bias Auswahl/Transformation der Features führt zu verzerrten Modellen. Im Skript als Transformation, Attributreduktion und Aggregation. Feature-Drop-Tests: Modelle mit/ohne bestimmte Variablen vergleichen und Einfluss dokumentieren. Berechnete Spalten vs. Measures: unterschiedliche Modellvarianten in getrennten Tabellen/Seiten vergleichen. Feature-Importance (z. B. Random Forest) und ablation studies mit sklearn.
Omitted Variable Bias Wichtige Einflussfaktoren fehlen im Modell, was zu verzerrten Schätzungen führt. Indirekt durch Diskussion unvollständiger Daten. Modelle mit zusätzlichen erklärenden Variablen (z. B. Rabatte) schätzen und Parameteränderungen prüfen. Measures mit/ohne zusätzliche Spalten (z. B. „Rabatt“, „Kanal“) definieren und Ergebnisunterschiede analysieren. Vergleich mehrerer Regressionen / Modelle mit unterschiedlichem Feature-Set in statsmodels/sklearn.
Temporal Bias Zeitliche Einschränkung/Saison verzerrt Aussagen. In Einheit 4: Latenzen, Echtzeit vs. historische BI. Verteilungen nach Jahr/Monat (lubridate::year(), month()) prüfen, z. B. nur 2022–2023. Zeitfilter (Slicer) zur Laufzeit sichtbar machen und KPIs pro Jahr/Quartal vergleichen. Zeitreihenplots mit matplotlib/plotly, Lücken/Trendbrüche identifizieren.
Exposure Bias Einige Nutzergruppen sehen nur bestimmte Angebote, wodurch Muster künstlich entstehen. Verwandt mit Coverage Bias. Warenkorb-Analysen nach Segmenten (z. B. Vertriebskanal, Region) getrennt auswerten. Berichte mit Segmentierung nach Kanal/Filiale; separate Seiten pro Segment. Gruppenbasierte EDA: df.groupby('channel').agg(...) und Regelmuster pro Kanal.
Noisy Data Bias Stark verrauschte/fehlerhafte Beobachtungen beeinflussen Modelle. Als Noisy Data klar beschrieben (Einheit 2). Ausreißer mit boxplot.stats() und z-Score-Checks (scale()) identifizieren. Boxplots in Power BI oder Diagramme mit Log-Skala für stark skewed Daten. Ausreißer mit IQR-Regel oder robusten Methoden in pandas/NumPy erkennen.
Semantic Bias Daten sind formal korrekt, aber inhaltlich falsch (bedeutungsfalsch). Als semantische Fehler im Skript erläutert. Regeln wie „Umsatz ≈ Preis × Menge“ prüfen; logische Widersprüche filtern (dplyr::filter()). Calculated Columns/Measures für fachliche Plausibilitätsregeln (z. B. „IsValidRow“). Business-Regeln in Python implementieren (if-Logik) und Verstöße in einem DataFrame markieren.
Syntactic Bias Daten passen nicht zum erwarteten Format/Datentyp. Als syntaktische Fehler im Skript erläutert. Mit str(), glimpse() und expliziten as.numeric()/as.Date()-Konvertierungen prüfen. In Power Query fehlerhafte Typkonvertierungen (rote Fehlerwerte) sichtbar machen. Mit df.dtypes und to_datetime()/to_numeric() Typ-Fehler finden.
Coverage Error Relevante Teile der Realwelt werden gar nicht abgebildet. Als eigene Fehlerklasse Coverage. Mit is.na() und Referenztabellen (Dimensions vs. Facts) fehlende Kombinationen identifizieren. Inactive Relationships oder fehlende Dimensionseinträge im Datenmodell prüfen. Left/outer joins verwenden und fehlende Items/Keys via isna() markieren.
Redundancy Bias Doppelte/mehrfach erfasste Informationen verzerren Statistiken. Als Redundanz bei Fehlerarten erwähnt. Dubletten mit dplyr::count(...) und filter(n > 1) auf Bestellung/Kunde/Produkt finden. Duplicated Rows im Power Query Editor erkennen und Duplikate filtern oder markieren. Mit df.duplicated() doppelte Zeilen/Schlüssel identifizieren.
Inconsistency Bias Widersprüchliche Angaben für denselben Sachverhalt. Als Unregelmäßigkeiten (Einheit 2). Unterschiedliche Schreibweisen (z. B. E-Bike/E-bike) mit distinct() und String-Normalisierung analysieren. Standardisierung per Power Query (Trim, Clean, Replace Values) und Vergleich vor/nach Bereinigung. Strings normalisieren (Lowercase, Strip, Replace) und dann value_counts() prüfen.
*) Bias bezeichnet stets eine systematische Verzerrung. Zufällige Fehler gleichen sich meist aus, Verzerrungen aber setzen sich in allen Analysen fort und beeinflussen Reports, Forecasts und Entscheidungen dauerhaft.
**) Einige Bias-Arten sind nicht durch Algorithmen, sondern durch Prozesse verursacht. Wenn ein operatives System bestimmte Ereignisse nicht erfasst, erscheinen sie auch im Data Warehouse und in BI-Modellen nicht – selbst dann, wenn das technische System fehlerfrei arbeitet.

Falls jemand Anmerkungen oder weitere Beispiele beitragen möchte, freue ich mich über eine kurze Nachricht per Mail.
***) Als "BI-Kurs" wird hier insbesondere das Master Modul Business Intelligence der Fernuni Hagen gemeint. Diese Spalte dient für mich zur Orientierung, ob es sich um "freiwilliges" oder tatsächlich prüfungsrelevante Inhalte handelt.