Data Mining
Data Mining ist die (halb-)automatisierte Wissensextraktion aus bereits abgespeicherten (strukturierten) Daten. Es ist ein Prozess zum Auffinden von unbekannten, nicht-trivialen Zusammenhängen in Datenbeständen. Data Mining versucht Muster zu finden und wird oft als die “Krone” der Datenhaltungstechnologien angesehen.
Data Understanding
Data Understanding beinhaltet die Erkennung der grundlegenden Eigenschaften von Daten. Dabei ist es wichtig, die Attribute zu verstehen, besonders bei numerisch kodierten Nominalskalen.
- Accuracy: Syntaktische und semantische Korrektheit der Daten.
- Vollständigkeit: Verfügbarkeit der Attributwerte und Datensätze.
- Biases: Erkennung von Lücken in den Datengrundlagen.
Der Grad der Korrelation zwischen numerischen Attributen kann durch den Pearson-Korrelationskoeffizienten berechnet werden, der Werte zwischen -1 und 1 annimmt. Je größer der Wert, desto höher ist der lineare Zusammenhang. Outlier können durch Mess- oder Tippfehler verursacht werden.
Fehlende Werte
- Missing completely at Random: Fehlende Werte sind unabhängig von den Daten.
- Missing at Random: Fehlende Werte hängen von beobachteten Daten ab.
- Nonignorable: Fehlende Werte hängen von unbeobachteten Daten ab.
Visualisierung
- Boxplot
- Scatter Plot (nicht geeignet für zu viele Datenpunkte, Alternativen: Density Plots)
- Parallel Coordinates
- Radar & Star Plots
Data Preparation
Data Preparation nutzt die gewonnenen Informationen aus dem Data Understanding.
- Feature Extraction: Konstruktion neuer Features (Attribute) auf Basis der gegebenen Attribute, z.B. der Sofa-Score.
- Feature Selection: Entfernung irrelevanter Features.
- Record Selection
- Data Cleansing: Großschreibung, Entfernung von Leerzeichen, Festlegung von Daten- und Zeitformaten, Ersetzen von Abkürzungen.
Modelling
- Muster erkennen: Clusteranalysen, wobei die Mindestdistanz festgelegt werden muss.
- Erklärungen finden: Erklärungen für bisher unbekannte Abhängigkeiten in den Daten, fokussiert auf ein Zielattribut und dessen Wert (supervised learning). Bei nominalen Attributen handelt es sich um ein Klassifikationsproblem, bei numerischen um ein Regressionsproblem. Methoden: Entscheidungsbäume.
- Vorhersagen treffen: Künstliche Neuronale Netze, Nearest Neighbor, Deep Learning (Black Box).
Zur Validierung der Modelle werden diese in der Regel mit 2/3 Trainingsdaten und 1/3 Testdaten überprüft. Häufig wird dies durch mehrere Splits erreicht, bekannt als Cross Validation.
Evaluation und Deployment
Modelle sollten kontinuierlich überwacht werden, da sich die reale Welt verändert und möglicherweise Updates notwendig sind.