Was ist Data Mining?
Data Mining bezeichnet Methoden, mit denen vor allem Data Scientists neue Werte aus Daten erschließen können. Konkret handelt es sich um Algorithmen aus der Statistik sowie Verfahren der Künstlichen Intelligenz, die automatisiert unbekannte Muster, Trends und Zusammenhänge in vorhandenen Datenbeständen aufdecken. Die gewonnenen Erkenntnissen werden schließlich für die Neuentwicklung oder Optimierung von digitalen Prozessen und Produkten genutzt.
Die Methoden des Data Minings generieren auf unterschiedliche Weise neues Wissen aus Daten. Sie lassen sich unterteilen in:
- Klassifikation: Datenobjekte werden definierten Klassen zugeordnet, wie zum Beispiel bei der datengestützten Diagnose von Krankheiten.
- Segmentierung: Objekte mit gemeinsamen Merkmalen werden zusammengefasst, beispielsweise Kunden in bestimmte Kundengruppen.
- Prognose: Unbekannte Merkmale werden auf Basis vorhandener Merkmale oder neuer Erkenntnisse vorhergesagt, wie etwa bei der Prognose von Maschinenausfällen
- Abhängigkeitsanalyse: Zwischen den Merkmalen von einem Objekt oder verschiedenen Objekten werden Beziehungen identifiziert. So können Zusammenhänge in Daten beispielsweise auf bestimmte Marktentwicklungen hinweisen.
- Abweichungsanalyse: Es werden Objekte ermittelt, die den Regeln der Abhängigkeiten anderer Objekte nicht entsprechen. Aus der Ursachen für die Abweichung resultiert dann die Erkenntnis, etwa dass spezifische Temperaturgrenzwerte eingehalten werden müssen, damit sich Bauteile bei der Produktion nicht verformen.
Durch die Anwendung der Data-Mining-Methoden auf Big Data – also große Mengen an strukturierten und unstrukturierten Daten – lassen sich im Regelfall noch bessere Ergebnisse mit höherer Relevanz erzielen.