KDD - ein Überblick

Business Intelligence ist das Werkzeug, aber der Mensch bleibt das Maß der Dinge. Wer den KDD-Prozess bis zum Ende durchläuft, baut keine Datenbanken – er baut eine zukunftsfähige Organisation.

Im Folgenden wird jeder Teilschritt kurz zusammengefasst und mit einem Code- bzw. kurzem Implementierungsbeispiel in R, Power BI und Python untermauert.

 
      
🔎

Tipp: Zeile anklicken, um sie zu markieren. Mit den Buttons kannst du die Tool-Spalten filtern.

KDD-Schritt Bezeichnung/Beschreibung Wie im BI-Kurs (*) genannt? Beispiel in R Beispiel in PowerBI/DAX Beispiel in Python
1. Schritt
Problemdefinition
Geschäftsproblem, Stakeholder, Randbedingungen und Erfolgskriterien (z.B. ROI, Trefferquote, Kostenmatrix) klären. Ergebnis: klare Fragestellung + messbare Zielgröße(n) + Annahmen. Problemdefinition (Schnittstelle zur Strategie/Management) Zielmetrik festlegen (z.B. Churn-Label) + Business-Kostenmatrix dokumentieren.
Reproduzierbare Doku via rmarkdown / Quarto.
KPI-Definition im Semantic Model: ChurnRate, CLV, Schwellenwerte als Parameter.
Anforderungen im Report/Backlog festhalten (Use Cases, Drilldowns).
Notebook: Zielvariable + Metriken (z.B. AUC, Precision@K) + Kostenmatrix definieren.
Beispiel: sklearn.metrics.roc_auc_score.
2. Schritt
Target Set
Target-Datensatz erstellen: Relevante Quellen/Tabellen, Attribute und Zeiträume auswählen und zu einem „Arbeitsdatensatz“ zusammenführen (inkl. Definition der Beobachtungseinheit: Kunde, Auftrag, Session, Maschine …). Datenselektion / Datenbasis für Analyse (vorbereitende Schritte) Daten ziehen + joins: dplyr::left_join(), Filter: filter(date >= ...).
Sampling/Partition: rsample::initial_split().
Power Query: Quellen kombinieren (Merge/Append), Zeitraumfilter, Spaltenauswahl.
Modell: Star Schema vorbereiten (Fakten/Dimensionen).
pandas.merge() + Filter/Partitionierung.
Zeitbasierter Split (Leakage vermeiden): Train bis T, Test nach T.
3. Schritt
Cleaning
Datenbereinigung & Preprocessing: Missing Values, Dubletten, fehlerhafte Codes, Ausreißer, Inkonsistenzen, Datentypen. Ergebnis: „analysierbarer“ Datensatz + Regeln/Protokoll. Bereinigung und Aufbereitung (Datenqualität) Missing: tidyr::replace_na(), Dubletten: dplyr::distinct().
Profiling: skimr::skim().
Power Query: Remove errors, Replace values, Remove duplicates.
DQ-Maß: InvalidRows = COUNTROWS(FILTER(Table, Table[Qty]<0)).
Missing-Quote: df.isna().mean(), Dubletten: drop_duplicates().
Regeln per pandera (Schema-Checks) oder einfache Assertions.
4. Schritt
Reduktion
Datenreduktion & Projektion: Datenmenge/Dimensionalität reduzieren (Feature Selection, Aggregation, Sampling, PCA), ohne Informationsverlust für das Ziel (Performance + Stabilität). Reduktion/Projektion (Transformation als vorbereitender Schritt) Feature-Auswahl: recipes::step_zv(), step_corr().
Aggregation: group_by() + summarise().
Power Query: Spalten entfernen, Aggregationstabellen anlegen.
Modellseitig: nur notwendige Spalten importieren (Model Size/Performance).
Feature Selection: sklearn.feature_selection (z.B. SelectKBest).
PCA: sklearn.decomposition.PCA.
5. Schritt
Task
Data-Mining-Task wählen: Festlegen, welche Art von Problem gelöst wird (Klassifikation, Regression, Clustering, Assoziationsanalyse, Anomalieerkennung …). Ergebnis: klare Aufgabenformulierung. Auswahl der Analyseaufgabe / Modellziel (KDD-Planung) Entscheidung: Churn = Klassifikation, Umsatz = Regression, Segmente = Clustering.
Skizze: Zielvariable, Features, Evaluationsmetrik.
In BI oft: „Welche Entscheidung soll der Report unterstützen?“
Beispiel: Segment-Report (Clustering-Ergebnis) vs. Score-Listen (Klassifikation).
Task-Definition als Code-Kommentar + Metrik: z.B. average_precision bei Imbalance.
Optional: Baseline-Modelle definieren.
6. Schritt
Algorithmus
Algorithmus auswählen: Konkretes Verfahren bestimmen (z.B. Entscheidungsbaum, Random Forest, XGBoost, k-Means), inkl. Parametern und Trade-offs (Interpretierbarkeit vs. Genauigkeit vs. Laufzeit). Methodenwahl / Modellwahl (Data-Mining-Methoden) Vergleich: rpart (transparent) vs. randomForest (stärker).
Tuning z.B. via tidymodels::tune_grid().
Power BI: Algorithmuswahl meist außerhalb (z.B. Fabric/AutoML/Azure ML).
Entscheidung „erklärbar“ (Rules/Tree) vs. „bestes Scoring“ (Boosting).
sklearn: LogisticRegression, RandomForestClassifier, XGBClassifier (falls verfügbar).
Parameter via GridSearchCV.
7. Schritt
Data Mining
Data Mining durchführen: Modell trainieren / Muster extrahieren. Ergebnis: Modell/Pattern + Artefakte (Scores, Cluster-IDs, Rules). Wichtig: Training/Validierung sauber trennen (Leakage vermeiden). Data Mining (Kernschritt innerhalb KDD) Training: parsnip + workflows; CV: vfold_cv().
Output: Score-Spalte + Modellobjekt speichern.
Ergebnis wird typischerweise als Tabelle/Spalte ins Modell geladen (Score/Cluster).
Visualisierung/Selektion im Report (Top-N, Segmentfilter).
Pipeline: Pipeline([...]) + fit() + predict_proba().
Output: Score je Kunde in DWH/Lakehouse schreiben.
8. Schritt
Evaluation
Interpretation & Evaluation: Qualität bewerten (Metriken), fachliche Plausibilität prüfen, Robustheit/Bias/Drift-Risiken erkennen. Ergebnis: Entscheidung „einsetzbar?“ + Begründung. Interpretation / Bewertung / Handlungsempfehlung Gütemaße: yardstick::roc_auc(), Confusion Matrix.
Erklärbarkeit: Feature Importance; ggf. SHAP (paketabhängig).
„Sanity Checks“ im Report: Trefferquote nach Segment/Zeitraum, Abweichungen sichtbar machen.
Drillthrough: Score → Detailprofil (Transparenz für Fachbereich).
classification_report, roc_curve, Calibration.
Gruppenchecks (Fairness/Bias) nach Region/Segment; SHAP bei Bedarf.
9. Schritt
Nutzung
Wissen nutzen (Deployment/Operationalisierung): Ergebnisse in Prozesse integrieren (Kampagne, Alerting, Regeln), Monitoring etablieren (Datenqualität, Modell-Drift), Feedbackschleife starten (iterativ!). Verwendung / Integration in Geschäftsprozesse (BI-Nutzung) Batch-Scoring + Export in DB/CSV, Zeitplan (cron), Monitoring-Report via RMarkdown.
Feedbackdaten sammeln (erfolgreich/nicht erfolgreich) für Re-Training.
Power BI als „Entscheidungsoberfläche“: Score-Listen, Segmentansichten, Alerts, Apps/Workspaces (Governance).
Ergebnis-Tracking im Report (Kampagnenerfolg vs. Score).
Scoring-Job (Batch) + Schreiben ins DWH/Lakehouse; Monitoring (Volumen, Drift) + Alerting.
Re-Training bei Drift oder Datenänderungen.
 

Weitere KDD-Zusammenfassungen nach anderen Autoren

Im Skript werden mehrere vereinfachte oder anders gewichtete KDD-Modelle vorgestellt. Sie unterscheiden sich weniger in den Inhalten als im Fokus.

Ester & Sander

Fokus: algorithmisch-technisch.
Ester & Sander reduzieren KDD auf wenige, klar abgegrenzte Phasen (Datenvorbereitung → Data Mining → Interpretation). Der Schwerpunkt liegt auf der methodischen Durchführung, weniger auf organisationalen oder strategischen Aspekten.

Düsing

Fokus: BI- und entscheidungsorientiert.
Düsing betont besonders die Einbettung in den Entscheidungsprozess sowie die Rolle von Zieldefinition, Nutzung und Feedback. KDD wird hier stark als Bestandteil eines Management- und Steuerungskreislaufs verstanden.

Linoff & Berry

Fokus: pragmatisch-geschäftsorientiert.
Linoff & Berry betrachten KDD aus Sicht konkreter Business-Anwendungen (Marketing, CRM, Risikoanalyse). Der Prozess ist weniger formal, dafür stark auf praktischen Nutzen und schnelle Umsetzbarkeit ausgerichtet.

 
*) Die Prozessbegriffe variieren in der Literatur. Im Skript wird eine Gegenüberstellung mehrerer KDD-Prozessvarianten (u.a. Ester & Sander; Düsing; Linoff & Berry; Fayyad et al.) gezeigt – die „Meta-Phasen“ sind dabei meist (I) vorbereitende Schritte, (II) Data Mining, (III) Evaluation/Interpretation/Verwendung.