Datamining Paradigmen und Methoden für komplexe Datenbestände

type: Vorlesung (V)
chair: Fakultät für Informatik
semester: SS 2014
time:
Thursday, 08:00 - 09:30 weekly
Thursday, 14:00 - 15:30 weekly

Room -102 (- 1st floor)
50.34 Informatik, Kollegiengebäude am Fasanengarten
lecturer: Prof.Dr.Ing. Klemens Böhm
Dr. Emmanuel Müller
sws: 3
lv-no.: 24647
information:
Die Vorlesung, am 05. Juni um 14:00 Uhr, findet regulär statt!

Folien und weitere Informationen zur Vorlesung im Studierendenportal.

Beschreibung:

In der Vorlesung werden Kenntnisse zu fortgeschrittenen Methoden des Data Mining mit aktuellem Forschungsbezug vermittelt. Traditionelle Data Mining Methoden sind schon seit Längerem in der Literatur bekannt und werden in grundlegenden Vorlesungen behandelt. Durch die immer größer und komplexer werdenden Daten in heutigen Anwendungen lassen sich einige dieser traditionellen Verfahren nur noch auf verhältnismäßig kleine und einfache Probleminstanzen anwenden. Durch die Forschung in den letzten Jahren wurden jedoch einige neue Paradigmen für große und hochdimensionale Datenbanken entwickelt, die mit den neuen Herausforderungen in heutigen und zukünftigen Anwendungen skalieren sollen.

In der Vorlesung werden anhand von aktuellen Anwendungen neue Problemstellungen für Data Mining Methoden aufgezeigt. Der Schwerpunkt der Vorlesung liegt auf fortgeschrittenen Data Mining Paradigmen zur Wissensextraktion aus hochdimensionalen Daten. Es werden die grundsätzlichen Charakteristiken unterschiedlicher Paradigmen verglichen und verschiedene algorithmische Lösungen aus jedem dieser Bereiche vorgestellt. Darüber hinaus werden neue Evaluierungsmethoden vorgestellt, um diese Data Mining Lösungen für konkrete Anwendungen bewerten zu können.

Inhalt:

Motivation der neuen Herausforderungen anhand aktueller Anwendungen.
Überblick über traditionelle Data Mining Verfahren und deren Schwächen.
Abstraktion der Problemstellungen für hochdimensionale Datenbanken.
Lösungsansätze neuer Paradigmen: Subspace Clustering und Projected Clustering
zur Erkennung von Clustern in Teilräumen von hochdimensionalen Daten.
Lösungsansätze zur Elimination von Redundanz in der Ausgabemenge von Data
Mining Methoden. Verbesserung der Qualität durch Optimierung der Ergebnismenge.
Extraktion von neuem Wissen durch alternative Sichten auf die Daten. Suche nach
Alternativen zu gegebenen Ergebnismengen und Analyse von orthogonalen Teilräumen.
Outlier Mining Techniken in hochdimensionalen Datenbanken. Problemstellungen
und aktuelle Lösungsansätze aus Forschungs- und Industrieprojekten.
Ausblick zur eigenen Forschung in diesen Bereichen.

Lernziel:

Am Ende der Lehrveranstaltung sollen die Teilnehmer die Notwendigkeit von fortgeschrittenen Data Mining
Konzepten gut verstanden haben und erläutern können. Sie sollen unterschiedliche Ansätze zur Analyse großer und komplexer Datenbestände hinsichtlich ihrer Wirksamkeit und Anwendbarkeit einschätzen und vergleichen können. Die Teilnehmer sollen verstehen, welche Probleme im Themenbereich Data Mining derzeit offen sind, und einen Einblick in den diesbezüglichen Stand der Forschung gewonnen haben.

Literatur:

Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques. 2nd edition, Morgan Kaufmann, March 2006.

Martin Ester, Jörg Sander: Knowledge Discovery in Databases, Springer, Januar 2000