Datamining Paradigmen und Methoden für komplexe Datenbestände

Inhalt

In der Vorlesung werden Kenntnisse zu fortgeschrittenen Methoden des Data Mining mit aktuellem Forschungsbezug vermittelt. Traditionelle Data Mining Methoden sind schon seit Längerem in der Literatur bekannt und werden in grundlegenden Vorlesungen behandelt. Durch die immer größer und komplexer werdenden Daten in heutigen Anwendungen lassen sich einige dieser traditionellen Verfahren nur noch auf verhältnismäßig kleine und einfache Probleminstanzen anwenden. Durch die Forschung in den letzten Jahren wurden jedoch einige neue Paradigmen für große und hochdimensionale Datenbanken entwickelt, die mit den neuen Herausforderungen in heutigen und zukünftigen Anwendungen skalieren sollen.  

In der Vorlesung werden anhand von aktuellen Anwendungen neue Problemstellungen für Data Mining Methoden aufgezeigt. Der Schwerpunkt der Vorlesung liegt auf fortgeschrittenen Data Mining Paradigmen zur Wissensextraktion aus hochdimensionalen Daten. Es werden die grundsätzlichen Charakteristiken unterschiedlicher Paradigmen verglichen und verschiedene algorithmische Lösungen aus jedem dieser Bereiche  vorgestellt. Darüber hinaus werden neue Evaluierungsmethoden vorgestellt, um diese Data Mining Lösungen für konkrete Anwendungen bewerten zu können.

Überblick über den Inhalt der Vorlesung:

  • Motivation der neuen Herausforderungen anhand aktueller Anwendungen.
  • Überblick über traditionelle Data Mining Verfahren und deren Schwächen.
  • Abstraktion der Problemstellungen für hochdimensionale Datenbanken. 
  • Lösungsansätze neuer Paradigmen: Subspace Clustering und Projected Clustering zur Erkennung von Clustern in Teilräumen von hochdimensionalen Daten.
  • Lösungsansätze zur Elimination von Redundanz in der Ausgabemenge von Data Mining Methoden. Verbesserung der Qualität durch Optimierung der Ergebnismenge.
  • Extraktion von neuem Wissen durch alternative Sichten auf die Daten. Suche nach Alternativen zu gegebenen Ergebnismengen und Analyse von orthogonalen Teilräumen.
  • Outlier Mining Techniken in hochdimensionalen Datenbanken. Problemstellungen und aktuelle Lösungsansätze aus Forschungs- und Industrieprojekten.
  • Ausblick zur eigenen Forschung in diesen Bereichen. 

Lernziele

Am Ende der Lehrveranstaltung sollen die Teilnehmer die Notwendigkeit von fortgeschrittenen Data Mining Konzepten gut verstanden haben und erläutern können. Sie sollen unterschiedliche Ansätze zur Analyse großer und komplexer Datenbestände hinsichtlich ihrer Wirksamkeit und Anwendbarkeit einschätzen und vergleichen können. Die Teilnehmer sollen verstehen, welche Probleme im Themenbereich Data Mining derzeit offen sind, und einen Einblick in den diesbezüglichen Stand der Forschung gewonnen haben.

Material

  • Folien und weitere Informationen zur Vorlesung im Studierendenportal

Grundlegende Literatur

  • J. Han und M. Kamber: "Data Mining: Concepts and Techniques", Morgan Kaufmann, 2006. 
  • M. Ester und J. Sander: "Knowledge Discovery in Databases", Springer, 2000.
  • I. H. Witten und E. Frank: "Data Mining - Practical Machine Learning Tools and Techniques", Morgan Kaufmann, 2005.