Fehler – Fehlerarten und Fehlerklassen(*) – eine Übersicht
Fehlerarten beschreiben, was in den Daten schief ist (z. B. „ungültiges Datum“, „Duplikat“, „fehlender Datensatz“). Fehlerklassen beschreiben, welcher Art der Fehler ist – also woran er erkannt wird und warum er in BI-Analysen besonders kritisch ist.
Kurslogik (Einheit 2): Die Einteilung hilft, passende Gegenmaßnahmen abzuleiten: syntaktische Fehler sind häufig regelbasiert automatisierbar, semantische Fehler brauchen Domänenwissen/Business Rules, Coverage-Fehler sind besonders gefährlich, weil sie unbemerkt Trends und Kennzahlen verzerren können.
Wir unterteilen in folgende Fehlerklassen:
1) Syntaktische Fehler (Form/Regeln):
Werte sind formal/technisch fehlerhaft oder uneinheitlich (Format, Datentyp, erlaubte Zeichen/Wertebereiche).
Typisch: Parsing/Typisierung scheitert → NULL/BLANK, Fehler in Power Query, fehlerhafte Joins.
2) Semantische Fehler (Bedeutung):
Werte sind formal gültig, aber fachlich falsch oder widersprüchlich (z. B. negativer Umsatz ohne Retourenlogik,
Statuslogik falsch, Dubletten mit widersprüchlichen Attributen).
Besonders gefährlich: Reports wirken „sauber“, KPIs sind inhaltlich falsch.
3) Coverage-Fehler (Abdeckung/Vollständigkeit):
Daten fehlen – Attribute, Datensätze, Zeiträume oder Beziehungen (Orphans). Das erzeugt Bias und verzerrt
Zeitreihen, Forecasts, Segmentierungen.
Zuordnung (wie von dir vorgegeben):
- Semantische Fehlerarten: Verschmutzungen, Noisy Data, Redundanz
- Syntaktische Fehlerarten: Unzulässige Werte, Unregelmäßigkeiten
- Coverage-Fehlerarten: Fehlende Werte, Unvollständige Werte
Tipp: Zeile anklicken, um sie zu markieren. Suche filtert alle Fehler-Tabellen gleichzeitig.
Standard: Power BI/DAX ist eingeblendet. Du kannst pro Sprache Beispiel-Daten und konkrete Prüf-/Bereinigungsschritte einblenden.
Power BI / DAX – Beispiel-Daten & Setup
Import-Tabelle Sales (Textspalten enthalten bewusst Probleme). Zusätzlich wird eine
Kalendertabelle Date genutzt. Die Tabellenzeilen referenzieren genau diese Felder.
Sales (Beispiel)
SaleID | CustomerID | DateText | AmountText | Zip | Status | Source | StatusCode
1 | C001 | 2025-01-05 | 120.50 | 10115 | OK | CRM | A
2 | C002 | 05.01.2025 | 99,95 | 80A01 | Cancelled | ERP | A
3 | C003 | 2025/13/01 | fifty | 50667 | OK | CRM | A
4 | C004 | (blank) | -10.00 | 50667 | OK | CRM | A
// Date Table (für Zeitreihen & Coverage-Checks)
Date = CALENDAR(DATE(2025,1,1), DATE(2025,1,10))
Tipp: Parsing/Typisierung gehört in Power BI meist in Power Query. DAX wird hier als „Modell-/Kontrollsicht“ gezeigt (Checks, Flags, KPIs).
Beispiele (Tabellenlogik)
Die Fehlerklassen sind Überschriften der Tabellen. Die Fehlerarten sind Zeilen. Spalten: (1) Fehlerart, (2) Beschreibung, (3) Kursbezug, (4–6) konkrete Beispiele in R, Power BI/DAX und Python.
Tipp für Praxis/Prüfung: Wenn du eine Fehlerart erkennst, formuliere immer direkt eine Regel (Validierung) und einen Behandlungsweg (korrigieren, mappen, quarantänisieren, imputieren, 0/NA bewusst ausweisen).
Semantische Fehler (Bedeutung) – Fehlerarten
| Fehlerart | Beschreibung | Kursbezug? | Beispiel in R | Beispiel in Power BI/DAX | Beispiel in Python |
|---|---|---|---|---|---|
| Verschmutzungen semantisch |
Werte sind formal gültig, aber fachlich falsch oder widersprüchlich. Typisch: unplausible Werte (z.B. negativer Umsatz ohne Retourenlogik), falsche Zuordnung (Kunde/Produkt), Statuslogik wird ignoriert. | Datenqualität/Business Rules: „formal ok“ ≠ „fachlich korrekt“; Gefahr: KPIs werden falsch. |
Behandlung: korrigieren (wenn regelbasiert) oder Quarantäne/Fehlerlog. |
Im Report als DQ-KPI: Anteil semantisch verdächtiger Zeilen. |
|
| Noisy Data semantisch |
Zufällige Störungen/Messrauschen oder starke Ausreißer, die Muster verzerren (z.B. Sensorwerte, Klickdaten). In BI oft sichtbar als „Peaks“, die sich nicht durch Prozesse erklären lassen. | Datenprofiling & Ausreißerbehandlung: Risiko für Forecast/Modelle und Fehlinterpretation in Reports. |
Behandlung: winsorize, glätten, oder fachlich erklären/ausklammern. |
In Power BI visuell: Zeitreihe + Referenzlinie + Ausreißer-Count als KPI. |
|
| Redundanz semantisch |
Mehrfach vorkommende oder widersprüchliche Informationen (Dubletten, doppelte Kunden/Bestellungen, doppelte Events). Gefährlich: doppelte Summen/KPIs, widersprüchliche Dimensionen. | Redundanz/Dubletten als DQ-Thema; betrifft ETL-Integration und konforme Dimensionen. |
Behandlung: Golden-Record-Regel (Priorität Quelle, Timestamp, Status) + Logging. |
Besser: Dubletten im ETL/Power Query entfernen + Audit-Tabelle führen. |
|
Syntaktische Fehler (Form/Regeln) – Fehlerarten
| Fehlerart | Beschreibung | Kursbezug? | Beispiel in R | Beispiel in Power BI/DAX | Beispiel in Python |
|---|---|---|---|---|---|
| Unzulässige Werte syntaktisch |
Wert verletzt definierte Domäne/Regel: ungültiges Datum, Zahl als Text, PLZ mit Buchstaben,
Wertebereich verletzt. Ergebnis: Typisierung/Parsing scheitert oder liefert NA/BLANK.
|
Regelbasiert gut prüfbar (Datentyp, Range, Regex). Häufiger ETL-Härtungsfall. |
|
ZIP-Check besser in Power Query; DAX-Checks als Flags/KPIs nutzen. |
|
| Unregelmäßigkeiten syntaktisch |
Uneinheitliche Darstellung desselben Sachverhalts: gemischte Schreibweisen/Codes/Trennzeichen (z.B. „DE“, „Deutschland“, „GER“; Dezimalpunkt vs. -komma; unterschiedliche Datumsformate). Formal oft noch parsebar – aber inkonsistent. | Standardisierung/Harmonisierung (Domänen, Mappings) als Kernaufgabe in ETL & DQ. |
Ziel: konsistente Codes, konsistente Formate, dokumentierte Mapping-Regeln. |
Unregelmäßigkeiten möglichst vor dem Modell in Power Query/DWH standardisieren. |
|
Coverage-Fehler (Vollständigkeit/Abdeckung) – Fehlerarten
| Fehlerart | Beschreibung | Kursbezug? | Beispiel in R | Beispiel in Power BI/DAX | Beispiel in Python |
|---|---|---|---|---|---|
| Fehlende Werte coverage |
Einzelne Attributwerte fehlen (NULL/NA/BLANK) – z.B. Datum leer, Betrag nicht vorhanden,
Pflichtfeld nicht befüllt. Gefahr: Filter/Joins/KPIs werden still verfälscht.
|
Vollständigkeit als DQ-Kriterium; systematisch monitoren (Missing-Rate pro Feld). |
|
Ideal: Missing-Rate als Qualitäts-KPI im DQ-Report. |
|
| Unvollständige Werte coverage |
Datensätze/Beziehungen sind unvollständig: z.B. Kunde existiert, aber keine Sales; Sales ohne passenden Kunden („Orphans“); Zeitreihenlücken (Tage/Monate ohne Daten) – Ergebnis: Bias/Verzerrung. | Coverage-Checks via Mengen-/Referenzabgleich (Anti-Join), Kalenderraster erzwingen, Orphans sichtbar machen. |
|
|
|
Praxis-Check (Einheit-2-Denke): Behandle Fehler nicht „still“. Gute BI-Praxis ist: (1) Regeln definieren, (2) messen (DQ-KPIs), (3) protokollieren (Run/Counts), (4) bewusst behandeln (korrigieren/mappen/quarantänisieren/0 vs NA), (5) rückkoppeln (Quelle/Prozess).
| *) | Hinweis zu Begriffen: In der Alltagssprache werden „Fehler“ und „Bias“ oft vermischt. Für BI ist wichtig: Coverage-Fehler können systematische Verzerrungen erzeugen (z.B. fehlende Regionen/Zeiträume), während andere Fehler eher als Datenmüll/Inkonsistenz auftreten. |
| **) | BI-Kursbezug (Einheit 2): Die Einteilung in Fehlerklassen/Fehlerarten unterstützt die Auswahl von Qualitätsmaßnahmen im ETL/KDD/Reporting: syntaktisch (Regeln/Parsing), semantisch (Business Rules/Mappings), coverage (Abgleich/Vollständigkeit/Kalender/Orphans). |
| ***) | Als "BI-Kurs" wird hier insbesondere das Master-Modul Business Intelligence (FernUni Hagen) verstanden. Die Spalte „Kursbezug?“ dient zur Orientierung, ob ein Punkt eher als Werkzeugdetail oder als prüfungs-/konzeptrelevanter Kern (DQ/ETL/KDD) zu verstehen ist. |
Mini-Merksatz: Syntaktisch = Form/Regeln, Semantisch = Bedeutung/Business Rule, Coverage = Vollständigkeit/Abdeckung (Bias-Risiko).