Home | english | Impressum | Sitemap | KIT

Analysetechniken für große Datenbestände

Analysetechniken für große Datenbestände
Typ: Vorlesung (V)
Lehrstuhl: Fakultät für Informatik
Semester: WS 14/15
Zeit:

Dienstag, 08:00-09:30 Uhr,  wöchentlich

Mittwoch, 08:00-09:30 Uhr, 14-tägig

Raum -101 (-1. Stock)
50.34 Informatik, Kollegiengebäude am Fasanengarten 

 


Dozent: Prof.Dr.Ing. Klemens Böhm
Dr. Emmanuel Müller
SWS: 3
LVNr.: 24114

Aktuelles:

Wir bieten dieses Semester am 20. und 21. Mai 2015 eine Möglichkeit die Prüfung in der Vorlesung "Analysetechniken für große Datenbestände" (aus dem WS 2014/15) nachzuholen.  Da wir von einer geringen Anzahl an Studierenden ausgehen, werden wir wie im Modulhandbuch beschrieben mündliche Prüfungen abhalten.

Anmeldung wie üblich über das Studierendenportal.

Wir bitten zu beachten, dass ein weiterer Termin erst am Ende des WS 2015/16, nach der nächsten Veranstaltung angeboten wird.

Beschreibung:

In der Vorlesung werden grundlegende Kenntnisse im Bereich der Datenanalyse vermittelt.  Techniken zur Analyse großer Datenbestände stoßen bei Anwendern auf großes Interesse. Das Spektrum an Anwendungen ist breit und umfasst sowohl wirtschaftliche als auch wissenschaftliche Datenbestände: Klassische Branchen wie Banken und Versicherungen, neuere Akteure, insbesondere Internet-Firmen oder Betreiber neuartiger Informationsdienste und sozialer Medien, sowie Natur- und Ingenieurswissenschaften. In allen Bereichen besteht der Wunsch aus sehr großen Datenbeständen interessante Zusammenhänge zu extrahieren. In der Vorlesung geht es sowohl um die Aufbereitung von großen Datenbeständen als Voraussetzung für eine schnelle und leistungsfähige Analyse als auch um moderne Data Mining Techniken für die Analyse an sich.

In der Vorlesung werden anhand von aktuellen Anwendungen die grundlegenden Data Mining Problemstellungen aufgezeigt. Der Schwerpunkt der Vorlesung liegt auf Data Mining Algorithmen zur Wissensextraktion und bildet die einzelnen Schritte des Knowledge Discovery in Databases (KDD) Prozess ab. Es werden die grundsätzlichen Data Mining Problemstellungen vorgestellt und verschiedene algorithmische Lösungen aus jedem Bereiche verglichen. Darüber hinaus werden grundsätzliche Evaluierungsmethoden vorgestellt, um diese Data Mining Lösungen für konkrete Anwendungen bewerten zu können.

Inhalt:

  • Motivation des Themas Datenanalyse anhand von aktuellen Anwendungen
  • Einführung in den KDD Prozess zur Analyse großer Datenbestände
  • Aufbereitung von großen und komplexen Datenbeständen
  • Data Mining Methoden für Assoziations Regeln, Clustering, Classifikation, Outlier Mining
  • Evaluierungsmethoden für die Bewertung von Data Mining Algorithmen
  • Ausblick zu offenen Forschungsthemen in diesen Bereichen.

Lernziel:

Am Ende der Lehrveranstaltung sollen die Teilnehmer die Notwendigkeit von Konzepten der Datenanalyse gut verstanden haben und erläutern können. Sie sollen unterschiedliche Ansätze zur Verwaltung und Analyse großer Datenbestände hinsichtlich ihrer Wirksamkeit und Anwendbarkeit einschätzen und vergleichen können. Die Teilnehmer sollen verstehen, welche Probleme im Themenbereich der Vorlesung derzeit offen sind, und einen Einblick in den diesbezüglichen Stand der Forschung gewonnen haben.

Literatur:

  • Data Mining: Concepts and Techniques (3rd edition): Jiawei Han, Micheline Kamber, Jian Pei, Morgan Kaufmann Publishers 2011  (online verfügbar)
  • Data Mining and Analysis, Fundamental Concepts and Algorithms: Mohammed J. Zaki, Wagner Meira JR., Campridge University Press 2014  (online verfügbar)
  • Introduction to Data Mining: Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Addison-Wesley 2006
  • Knowledge Discovery in Databases: Martin Ester, Jörg Sander, Springer 2000

Folien und weitere Informationen zur Vorlesung sind im Studierendenportal verfügbar.