Forschungsgebiet

Ich bin daran interessiert Wissen automatisch und dateneffizient (es soll schon mit wenig Daten möglich sein) aus Daten zu extrahieren und so darzustellen dass ein Mensch es verstehen kann.

Die Arten des Wissens die extrahiert werden sollen, sind dabei z.B. Abhängigkeit und kausale Zusammenhänge zwischen Variablen. Diese können als kausale Graphen dargestellt werden und sind dann für einen Mensch einfach nachzuvollziehen. Solche Abhängigkeiten und kausale Graphen anhand von Daten zu finden benötigt Algorithmen zum finden von Abhängigkeiten.

Es gibt aber auch viele andere Data Science Anwendungen bei denen die Dateneffizienz wichtig ist. Insbesondere dann wenn die Erzeugung von Daten mit hohen Kosten verbunden ist. Wenn z.B. reale Experimente durchgeführt werden müssen, die Arbeitszeit und Materialkosten verursachen, wenn aufwändige und rechenintensive Simulationen durchgeführt werden, oder wenn eine Person die Daten annotieren muss.

Um Dateneffizienz zu erreichen muss ein Algorithmus selbständig lernen und entscheiden in welchen Datenbereichen neue Datenpunkte aufgenommen werden müssen, damit der Algorithmus sein Ziel (z.B. Abhängigkeiten zu finden) möglichst schnell erreicht.

Algorithmen die zu solchen Entscheidungen in der Lage sind kommen aus den Bereichen Active-Learning, Reinforcement-Learning und Bandit-Algorithmen.

Viele dieser Algorithmen arbeiten mit Wahrscheinlichkeiten und einem erwarteten Gewinn. Sie entscheiden sich also welche Datenpunkte sie beim erreichen ihres Ziels am ehesten und am weitesten voran bringt. Mit jedem neuen Datenpunkt lernt der Algorithmus mehr über das Problem und kann bessere Vorhersagen darüber treffen welche Datenpunkte nützlich sind.

Hierbei muss der Algorithmus entscheiden ob er erkunden soll, also den Datenbereich besser kennen lernen, oder das bereits gelernte ausnutzen soll und damit versuchen soll das Ziel zu erreichen. Wenn der Algorithmus zu viel erkundet, erreicht er das Ziel langsamer, wenn er zu wenig erkundet sondern das bereits gelernte ausnutzt fehlt womöglich Information die es möglich gemacht hätte das Ziel schneller zu erreichen. Dieses Problem nennt sich Exploration vs. Exploitation Dilemma.

Da es nur wenige Datensätze gibt, bei denen die Zusammenhänge bereits vorab bekannt sind, ist die syntetische Generierung von Daten ein weiterer Arbeitspunkt. Mit generierten Datensätzen bei denen die exakten zusammenhänge bekannt sind können Algorithmen geprüft und verglichen werden.