Business Intelligence ist das Werkzeug, aber der Mensch bleibt das Maß der Dinge. Wer den KDD-Prozess bis zum Ende durchläuft, baut keine Datenbanken – er baut eine zukunftsfähige Organisation.
Im Folgenden wird jeder Teilschritt kurz zusammengefasst und mit einem Code- bzw. kurzem Implementierungsbeispiel in R, Power BI und Python untermauert.
Tipp: Zeile anklicken, um sie zu markieren. Mit den Buttons kannst du die Tool-Spalten filtern.
| KDD-Schritt | Bezeichnung/Beschreibung | Wie im BI-Kurs (*) genannt? | Beispiel in R | Beispiel in PowerBI/DAX | Beispiel in Python |
|---|---|---|---|---|---|
| 1. Schritt Problemdefinition |
Geschäftsproblem, Stakeholder, Randbedingungen und Erfolgskriterien (z.B. ROI, Trefferquote, Kostenmatrix) klären. Ergebnis: klare Fragestellung + messbare Zielgröße(n) + Annahmen. | Problemdefinition (Schnittstelle zur Strategie/Management) |
Zielmetrik festlegen (z.B. Churn-Label) + Business-Kostenmatrix dokumentieren. Reproduzierbare Doku via rmarkdown / Quarto.
|
KPI-Definition im Semantic Model: ChurnRate, CLV, Schwellenwerte als Parameter.Anforderungen im Report/Backlog festhalten (Use Cases, Drilldowns). |
Notebook: Zielvariable + Metriken (z.B. AUC, Precision@K) + Kostenmatrix definieren. Beispiel: sklearn.metrics.roc_auc_score.
|
| 2. Schritt Target Set |
Target-Datensatz erstellen: Relevante Quellen/Tabellen, Attribute und Zeiträume auswählen und zu einem „Arbeitsdatensatz“ zusammenführen (inkl. Definition der Beobachtungseinheit: Kunde, Auftrag, Session, Maschine …). | Datenselektion / Datenbasis für Analyse (vorbereitende Schritte) |
Daten ziehen + joins: dplyr::left_join(), Filter: filter(date >= ...).Sampling/Partition: rsample::initial_split().
|
Power Query: Quellen kombinieren (Merge/Append), Zeitraumfilter, Spaltenauswahl. Modell: Star Schema vorbereiten (Fakten/Dimensionen). |
pandas.merge() + Filter/Partitionierung.Zeitbasierter Split (Leakage vermeiden): Train bis T, Test nach T. |
| 3. Schritt Cleaning |
Datenbereinigung & Preprocessing: Missing Values, Dubletten, fehlerhafte Codes, Ausreißer, Inkonsistenzen, Datentypen. Ergebnis: „analysierbarer“ Datensatz + Regeln/Protokoll. | Bereinigung und Aufbereitung (Datenqualität) |
Missing: tidyr::replace_na(), Dubletten: dplyr::distinct().Profiling: skimr::skim().
|
Power Query: Remove errors, Replace values, Remove duplicates. DQ-Maß: InvalidRows = COUNTROWS(FILTER(Table, Table[Qty]<0)).
|
Missing-Quote: df.isna().mean(), Dubletten: drop_duplicates().Regeln per pandera (Schema-Checks) oder einfache Assertions.
|
| 4. Schritt Reduktion |
Datenreduktion & Projektion: Datenmenge/Dimensionalität reduzieren (Feature Selection, Aggregation, Sampling, PCA), ohne Informationsverlust für das Ziel (Performance + Stabilität). | Reduktion/Projektion (Transformation als vorbereitender Schritt) |
Feature-Auswahl: recipes::step_zv(), step_corr().Aggregation: group_by() + summarise().
|
Power Query: Spalten entfernen, Aggregationstabellen anlegen. Modellseitig: nur notwendige Spalten importieren (Model Size/Performance). |
Feature Selection: sklearn.feature_selection (z.B. SelectKBest).PCA: sklearn.decomposition.PCA.
|
| 5. Schritt Task |
Data-Mining-Task wählen: Festlegen, welche Art von Problem gelöst wird (Klassifikation, Regression, Clustering, Assoziationsanalyse, Anomalieerkennung …). Ergebnis: klare Aufgabenformulierung. | Auswahl der Analyseaufgabe / Modellziel (KDD-Planung) |
Entscheidung: Churn = Klassifikation, Umsatz = Regression, Segmente = Clustering. Skizze: Zielvariable, Features, Evaluationsmetrik. |
In BI oft: „Welche Entscheidung soll der Report unterstützen?“ Beispiel: Segment-Report (Clustering-Ergebnis) vs. Score-Listen (Klassifikation). |
Task-Definition als Code-Kommentar + Metrik: z.B. average_precision bei Imbalance.Optional: Baseline-Modelle definieren. |
| 6. Schritt Algorithmus |
Algorithmus auswählen: Konkretes Verfahren bestimmen (z.B. Entscheidungsbaum, Random Forest, XGBoost, k-Means), inkl. Parametern und Trade-offs (Interpretierbarkeit vs. Genauigkeit vs. Laufzeit). | Methodenwahl / Modellwahl (Data-Mining-Methoden) |
Vergleich: rpart (transparent) vs. randomForest (stärker).Tuning z.B. via tidymodels::tune_grid().
|
Power BI: Algorithmuswahl meist außerhalb (z.B. Fabric/AutoML/Azure ML). Entscheidung „erklärbar“ (Rules/Tree) vs. „bestes Scoring“ (Boosting). |
sklearn: LogisticRegression, RandomForestClassifier, XGBClassifier (falls verfügbar).Parameter via GridSearchCV.
|
| 7. Schritt Data Mining |
Data Mining durchführen: Modell trainieren / Muster extrahieren. Ergebnis: Modell/Pattern + Artefakte (Scores, Cluster-IDs, Rules). Wichtig: Training/Validierung sauber trennen (Leakage vermeiden). | Data Mining (Kernschritt innerhalb KDD) |
Training: parsnip + workflows; CV: vfold_cv().Output: Score-Spalte + Modellobjekt speichern. |
Ergebnis wird typischerweise als Tabelle/Spalte ins Modell geladen (Score/Cluster). Visualisierung/Selektion im Report (Top-N, Segmentfilter). |
Pipeline: Pipeline([...]) + fit() + predict_proba().Output: Score je Kunde in DWH/Lakehouse schreiben. |
| 8. Schritt Evaluation |
Interpretation & Evaluation: Qualität bewerten (Metriken), fachliche Plausibilität prüfen, Robustheit/Bias/Drift-Risiken erkennen. Ergebnis: Entscheidung „einsetzbar?“ + Begründung. | Interpretation / Bewertung / Handlungsempfehlung |
Gütemaße: yardstick::roc_auc(), Confusion Matrix.Erklärbarkeit: Feature Importance; ggf. SHAP (paketabhängig). |
„Sanity Checks“ im Report: Trefferquote nach Segment/Zeitraum, Abweichungen sichtbar machen. Drillthrough: Score → Detailprofil (Transparenz für Fachbereich). |
classification_report, roc_curve, Calibration.Gruppenchecks (Fairness/Bias) nach Region/Segment; SHAP bei Bedarf. |
| 9. Schritt Nutzung |
Wissen nutzen (Deployment/Operationalisierung): Ergebnisse in Prozesse integrieren (Kampagne, Alerting, Regeln), Monitoring etablieren (Datenqualität, Modell-Drift), Feedbackschleife starten (iterativ!). | Verwendung / Integration in Geschäftsprozesse (BI-Nutzung) |
Batch-Scoring + Export in DB/CSV, Zeitplan (cron), Monitoring-Report via RMarkdown. Feedbackdaten sammeln (erfolgreich/nicht erfolgreich) für Re-Training. |
Power BI als „Entscheidungsoberfläche“: Score-Listen, Segmentansichten, Alerts, Apps/Workspaces (Governance). Ergebnis-Tracking im Report (Kampagnenerfolg vs. Score). |
Scoring-Job (Batch) + Schreiben ins DWH/Lakehouse; Monitoring (Volumen, Drift) + Alerting. Re-Training bei Drift oder Datenänderungen. |
Weitere KDD-Zusammenfassungen nach anderen Autoren
Im Skript werden mehrere vereinfachte oder anders gewichtete KDD-Modelle vorgestellt. Sie unterscheiden sich weniger in den Inhalten als im Fokus.
Ester & Sander
Fokus: algorithmisch-technisch.
Ester & Sander reduzieren KDD auf wenige, klar abgegrenzte Phasen
(Datenvorbereitung → Data Mining → Interpretation).
Der Schwerpunkt liegt auf der methodischen Durchführung,
weniger auf organisationalen oder strategischen Aspekten.
Düsing
Fokus: BI- und entscheidungsorientiert.
Düsing betont besonders die Einbettung in den Entscheidungsprozess
sowie die Rolle von Zieldefinition, Nutzung und Feedback.
KDD wird hier stark als Bestandteil eines
Management- und Steuerungskreislaufs verstanden.
Linoff & Berry
Fokus: pragmatisch-geschäftsorientiert.
Linoff & Berry betrachten KDD aus Sicht konkreter Business-Anwendungen
(Marketing, CRM, Risikoanalyse).
Der Prozess ist weniger formal, dafür stark auf
praktischen Nutzen und schnelle Umsetzbarkeit ausgerichtet.
| *) | Die Prozessbegriffe variieren in der Literatur. Im Skript wird eine Gegenüberstellung mehrerer KDD-Prozessvarianten (u.a. Ester & Sander; Düsing; Linoff & Berry; Fayyad et al.) gezeigt – die „Meta-Phasen“ sind dabei meist (I) vorbereitende Schritte, (II) Data Mining, (III) Evaluation/Interpretation/Verwendung. |