Data Warehousing and Mining

Aufzeichnung der Vorlesung

Die Aufzeichnungen der Vorlesungen finden Sie hier.

Zusammenfassung

Data Warehouses und Data Mining stoßen bei Anwendern mit großen Datenmengen, z.B. in den Bereichen Handel, Banken oder Versicherungen, auf großes Interesse. Hinter beiden Begriffen steht der Wunsch, in sehr großen, z.T. verteilten Datenbeständen die Übersicht zu behalten und mit möglichst geringem Aufwand interessante Zusammenhänge aus dem Datenbestand zu extrahieren. Ein Data Warehouse ist ein Repository, das mit Daten von einer oder mehreren operationalen Datenbanken versorgt wird. Die Daten werden so aufbereitet, daß die schnelle Evaluierung komplexer Analyse-Queries (OLAP, d.h. Online Analytical Processing) möglich wird. Bei Data Mining steht dagegen im Vordergrund, daß das System selbst Muster in den Datenbeständen erkennt.

Stichpunktezum Inhalt

  • Multidimensionale Datenmodelle: OLAP vs. OLTP, deklarativer Zugriff in multidimensionalen Datenmodellen und andere Interaktionsmechanismen,
  • Datenqualität, Data Cleaning,
  • Architektur von Data Warehouses, Konzepte des physischen Entwurfs,
  • Komprimierung multidimensionaler Daten und approximative Anfrageergebnisse,
  • Association Rules: Algorithmen für das Finden von Association Rules, Interessantheit, Quantitative Association Rules,
  • Clustering in niedrig- und hochdimensionalen Merkmalsräumen,
  • Klassifizierung - Verfahren für große Datenbestände,
  • Umsetzung von Warehousing und Data-Mining Konzepten in kommerziellen Datenbanksystemen,
  • Zeitreihenanalyse und Forecasting,
  • Data Mining und Privatheit.

Prüfungen

Die Prüfungen für dieses Fach als Teil einer Vertiefungsfachprüfung im Diplom-Studiengang Informatik sind mündlich. Für alle anderen Studierenden gilt das in der ersten Vorlesungssitzung mündlich Bekanntgegebene (das mit den Festlegungen in den jeweiligen Modulhandbüchern übereinstimmt). Auch Details zur Festlegung der Prüfungstermine werden in der ersten Vorlesungssitzung mündlich bekanntgegeben. Hier die wichtigsten Punkte in der Zusammenfassung:

  • In diesem Semester finden Prüfungen u. a. in der Woche 14.-18.02.2011 statt. Im kommenden Semester finden Prüfungen u. a. in den letzten beiden Septemberwochen statt.
  • Falls Sie sich zu (mindestens) einer Dreiergruppe von Prüflingen zusammenfinden, können wir einen Prüfungstermin flexibel vereinbaren. Erfahrungsgemäß kann die Prüfung in den allermeisten Fällen (es sei denn, ich bin gerade nicht in Karlsruhe) in der Woche Ihrer Wahl stattfinden. Voraussetzung ist, daß Sie die gleiche 'Prüfer-Kombination' haben (wie in der ersten Vorlesungssitzung erklärt).
  • Das Sekretariat erfaßt Studierende, die sich gern prüfen lassen wollen, und benachrichtigt sie, sobald ein Prüfungstermin zustandekommt, der zu ihren Präferenzen paßt. Es kann jedoch in diesem Fall passieren, daß kein Prüfungstermin in Ihrem Wunsch-Zeitraum zustande kommt. (Erfahrungsgemäß kann das insbesondere im Hochsommer oder in den letzten Monaten des Jahres gelegentlich vorkommen.)

Hinweis für Informationswirtschaft

Nicht prüfbar in Kombination mit Lehrveranstaltung 'Knowledge Discovery' (Lehrstuhl Prof. Studer).

Unterlagen

Wir bemühen uns, die Vorlesungsfolien vor jeder Sitzung auf dem BSCW-Server verfügbar zu machen. Die ppt-Folien sind p'wordgeschützt; das P'word ist die Stadt, in der wir uns befinden.

Übung

Im Wintersemester 2010/11 ändern wir die Modalitäten für die Übungsaufgaben zur Vorlesung „Data Warehousing und Mining“. Insbesondere führen wir für die Studierenden, die sich an dem Verfahren beteiligen (dazu weiter unten mehr), ein neuartiges Bewertungs­system ein. 

Buchempfehlung

Data Mining: Concepts and Techniques.Autoren: Jiawei Han, Micheline Kamber

Kontakt

Dozent: Prof. Dr. Klemens Böhm, klemens dot boehm at kit dot edu