Home | english | Impressum | Sitemap | KIT

Datamining Paradigmen und Methoden für komplexe Datenbestände

Datamining Paradigmen und Methoden für komplexe Datenbestände
Typ: Vorlesung (V)
Lehrstuhl: Fakultät für Informatik
Semester: SS 2014
Zeit:

Donnerstag, 08:00 - 09:30 Uhr, wöchentlich
Donnerstag, 14:00 - 15:30 Uhr, wöchentlich

Raum -102 (-1. Stock)
50.34 Informatik, Kollegiengebäude am Fasanengarten  



Dozent: Prof.Dr.Ing. Klemens Böhm
Dr. Emmanuel Müller
SWS: 3
LVNr.: 24647

Beschreibung:

In der Vorlesung werden Kenntnisse zu fortgeschrittenen Methoden des Data Mining mit aktuellem Forschungsbezug vermittelt. Traditionelle Data Mining Methoden sind schon seit Längerem in der Literatur bekannt und werden in grundlegenden Vorlesungen behandelt. Durch die immer größer und komplexer werdenden Daten in heutigen Anwendungen lassen sich einige dieser traditionellen Verfahren nur noch auf verhältnismäßig kleine und einfache Probleminstanzen anwenden. Durch die Forschung in den letzten Jahren wurden jedoch einige neue Paradigmen für große und hochdimensionale Datenbanken entwickelt, die mit den neuen Herausforderungen in heutigen und zukünftigen Anwendungen skalieren sollen.

In der Vorlesung werden anhand von aktuellen Anwendungen neue Problemstellungen für Data Mining Methoden aufgezeigt. Der Schwerpunkt der Vorlesung liegt auf fortgeschrittenen Data Mining Paradigmen zur Wissensextraktion aus hochdimensionalen Daten. Es werden die grundsätzlichen Charakteristiken unterschiedlicher Paradigmen verglichen und verschiedene algorithmische Lösungen aus jedem dieser Bereiche  vorgestellt. Darüber hinaus werden neue Evaluierungsmethoden vorgestellt, um diese Data Mining Lösungen für konkrete Anwendungen bewerten zu können.

Inhalt:

  • Motivation der neuen Herausforderungen anhand aktueller Anwendungen.
  • Überblick über traditionelle Data Mining Verfahren und deren Schwächen.
  • Abstraktion der Problemstellungen für hochdimensionale Datenbanken.
  • Lösungsansätze neuer Paradigmen: Subspace Clustering und Projected Clustering
    zur Erkennung von Clustern in Teilräumen von hochdimensionalen Daten.
  • Lösungsansätze zur Elimination von Redundanz in der Ausgabemenge von Data
    Mining Methoden. Verbesserung der Qualität durch Optimierung der Ergebnismenge.
  • Extraktion von neuem Wissen durch alternative Sichten auf die Daten. Suche nach
    Alternativen zu gegebenen Ergebnismengen und Analyse von orthogonalen Teilräumen.
  • Outlier Mining Techniken in hochdimensionalen Datenbanken. Problemstellungen
    und aktuelle Lösungsansätze aus Forschungs- und Industrieprojekten. 
  • Ausblick zur eigenen Forschung in diesen Bereichen.

Lernziel:

Am Ende der Lehrveranstaltung sollen die Teilnehmer die Notwendigkeit von fortgeschrittenen Data Mining
Konzepten gut verstanden haben und erläutern können. Sie sollen unterschiedliche Ansätze zur Analyse großer und komplexer Datenbestände hinsichtlich ihrer Wirksamkeit und Anwendbarkeit einschätzen und vergleichen können. Die Teilnehmer sollen verstehen, welche Probleme im Themenbereich Data Mining derzeit offen sind, und einen Einblick in den diesbezüglichen Stand der Forschung gewonnen haben.

 

 

Literatur:

  • Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques. 2nd edition, Morgan Kaufmann, March 2006.
  • Martin Ester, Jörg Sander: Knowledge Discovery in Databases, Springer, Januar 2000

  

Folien und weitere Informationen zur Vorlesung sind im Studierendenportal verfügbar.