Lehrstuhl für Systeme der Informationsverwaltung

Analysetechniken für große Datenbestände 2

Beschreibung:

Techniken zur Analyse großer Datenbestände stoßen bei Anwendern auf großes Interesse. Das Spektrum ist breit und umfasst klassische Branchen wie Banken und Versicherungen, neuere Akteure, insbesondere Internet-Firmen oder Betreiber neuartiger Informationsdienste und sozialer Medien, und Natur- und Ingenieurswissenschaften. In allen Fällen besteht der Wunsch, in sehr großen, z. T. verteilten Datenbeständen die Übersicht zu behalten, mitmöglichst geringem Aufwand interessante Zusammenhänge aus dem Datenbestand zu extrahieren und erwartetes Systemverhalten mit dem tatsächlichen systematisch vergleichen zu können. In der Vorlesung geht es sowohl um die Aufbereitung von Daten als Voraussetzung für eine schnelle und leistungsfähige Analyse als auch um moderneTechniken für die Analyse an sich. Die Lehrveranstaltung legt einen Schwerpunkt auf Phänomene und Techniken, die in der Vorlesung ‚Analysetechniken für große Datenbestände‘ nicht betrachtet wurden; dies sind Ansätze für Datenströme, Besonderheiten hochdimensionaler Datenbestände, Erschließung von Datenbeständen mit Methoden der Informationsintegration und des Data Warehousing sowie Komprimierung und Sampling großer Datenbestände.

Ziel:

Am Ende der Lehrveranstaltung sollen die Teilnehmer die Notwendigkeit fortgeschrittener Konzepte der Datenanalyse gutverstanden haben und erläutern können. Sie sollen eine große Vielfalt von Ansätzen zur Verwaltung und Analyse großer Datenbestände hinsichtlich ihrer Wirksamkeit und Anwendbarkeit einschätzen und vergleichen können. Die Teilnehmer sollen verstehen, welche Probleme im Themenbereich Datenanalyse derzeit offen sind,und einen breiten und tiefen Einblick in den diesbezüglichen Stand der Forschung gewonnen haben. Wichtige organisatorische Hinweise finden Sie im Ilias Kurs und auf unserer Website.

Description:

Techniques for analyzing large data sets are attracting a lot of interest from users. The spectrum is broad and includes classical industries such as banking and insurance, newer players, especially Internet companies or operators of novel information services and social media, and natural and engineering sciences. In all cases, there is a desire to keep track of very large, sometimes distributed data sets, to extract interesting correlations from the data set with as little effort as possible, and to be able to systematically compare expected system behavior with actual behavior. The lecture deals with the preparation of data as a prerequisite for a fast and efficient analysis as well as with modern techniques for the analysis itself. The course puts an emphasis on phenomena and techniques that were not considered in the lecture 'Analysis Techniques for Large Data Sets'; these are approaches to data streams, peculiarities of high-dimensional data sets, indexing of data sets with methods of information integration and data warehousing, and compression and sampling of large data sets.

Objective:

By the end of the course, students should have a good understanding of the need for advanced concepts in data analysis and be able to explain them. They should be able to assess and compare a wide variety of approaches to managing and analyzing large data sets in terms of their effectiveness and applicability. Participants should understand what problems are currently open in the topic area of data analytics,and have gained a broad and deep insight into the related state of research. Important organizational information can be found in the Ilias course and on our website.