Wilfried Wöber
- 23. Mai 2022

Auf der Suche nach dem "besten" AI-Algorithmus, oder auch nicht

Welches ist das beste AI-Modell? Sind es neuronale Netze? Ist es eine SVM? Verfolgen wir die wissenschaftlichen Publikationen und sehen uns aktuelle Forschungstätigkeiten an, ist der Trend ganz klar: tiefe neuronale Netze. Ändern neue Erkenntnisse aus dem Bereich erklärbare AI etwas daran? Müssen wir vielleicht unser Verständnis ändern, bevor wir diese Frage beantworten können?

In diesem Storyboard fassen wir einige Erkenntnisse aus diesen Bereichen zusammen und versuchen die Essenz daraus für Sie nutzbar zu machen. Zur Darstellung des Problems möchten wir mit zwei Beispielen aus unserem wissenschaftlichen Alltag beginnen.

In der Hochschullehre zeigen wir Studierenden unterschiedliche Methoden und Modelle zur Lösung unterschiedlicher Probleme. Viele dieser Modelle haben Sie bereits auf unserer Wissensplattform kennengelernt. Wir beginnen dabei typischerweise in den ersten Semestern mit einem einfachen Modell:

Sie wären erstaunt wie viel Zeit wir mit dieser einfachen Gleichung und unseren Studierenden verbringen und wie viele technische Probleme mit dieser Gleichung gelöst werden können. Trotzdem bringen wir unseren Studierenden komplexe Modelle wie die SVM oder künstliche neuronale Netze bei. Der Wunsch unserer Studierenden ist häufig der gleiche: Sie wollen sich nicht mit solchen langwierigen Modellen beschäftigen, sondern gleich deep learning „machen“. Ein ähnliches Phänomen sehen Sie auch auf unserer Wissensplattform: Auf dieser Plattform finden Sie unterschiedliche Ansätze und Lösungen zur Bearbeitung des gleichen Datensatzes. Warum tun wir das? Warum überspringen wir nicht Modelle, wenn es vermeintlich bessere gibt? Behalten Sie diese Frage kurz im Kopf und folgen uns in ein weiteres Beispiel.

Wir sind natürlich auch in der Forschung und Entwicklung tätig. Egal welche Probleme wir lösen – wir vergleichen immer mehrere Modelle beginnend mit dem einfachsten. Kunden und andere Stakeholder fragen uns: warum tun wir das? Warum nehmen wir nicht das beste Modell und sind damit zufrieden?

Jetzt könnten wir natürlich einerseits argumentieren, dass Studierende zuerst simple Modelle verstehen müssen, bevor wir komplexe Modelle lehren. Auf der anderen Seite könnten wir argumentieren, dass wir getrieben durch industrielle Nutzbarkeit das Modell suchen, welches den geringsten Rechenaufwand benötigt, um ausreichende Ergebnisse zu erzielen. Das wären oberflächlich nachvollziehbare Erklärungen. Hier beschäftigen wir uns mit einer Theorie, welche unser Vorgehen untermauert und alle Erklärungsversuche in diesem Kontext irrelevant macht: dem no-free-lunch Theorem.

Beginnen wir von vorne: was hat ein gratis Mittagessen mit AI zu tun? Das no-free-lunch Theorem (korrekt übersetzt: „nichts-ist-umsonst“ Theorem) besagt (stark vereinfacht ausgedrückt), dass keine Aussage über den „besten“ Algorithmus getroffen werden kann, ohne die Daten detailliert analysiert zu haben.

Um das zu verstehen, versuchen wir zunächst das Problem detailliert zu analysieren. Wenn wir mit AI Methoden und Modellen Dinge klassifizieren wollen (Objekte in Bildern, defekte Maschinen in Daten eines Beschleunigungssensors etc.) gehen wir davon aus, dass es eine „unbekannte“ Funktion gibt, welche das ermöglicht. Nennen wir diese Funktion f und die Trainingsdaten d. Es gibt aber ein Problem: wir kennen diese Funktion nicht und haben nur Hypothesen dargestellt durch unsere Modelle – wie zum Beispiel ein neuronales Netz. Nennen wir diese Hypothese h.

Stellen wir uns nun ein Maß vor, das die „Qualität“ zwischen der unbekannten Funktion und den Daten misst. Nennen wir dieses Maß P (f | d). Nennen wir das Maß, welches die „Qualität“ unseres AI Modells misst P (h | d). Was fällt Ihnen auf?

Wir kennen f noch immer nicht – es ist eine unbekannte Funktion, welche wir mit unserem Modell nachahmen wollen. Für h ist die Situation nur wenig besser. Die Hypothesen können wir zu mindestens evaluieren. Demnach ist auch unbekannt, inwieweit sich unser AI-Modell der unbekannten Funktion ähnelt. Dies führt zu der Kernaussage des no-free-lunch Theorems:

Alle Algorithmen performen im Durchschnitt auf allen möglichen Problemen gleich gut/schlecht.

Das klingt nicht sehr hilfreich in der Praxis. Welche praktische Auswirkung hat dieses Theorem nun? Einerseits müssen wir für ein unbekanntes Problem nicht beginnen, einen optimalen Algorithmus innerhalb der Basisliteratur zu suchen. Wir sollten eine breite Menge an potentiell brauchbaren Algorithmen für solche Probleme evaluieren und vergleichen.

Moment! Im Bereich der Computer Vision werden aber fast ausschließlich convolutional neuronal networks (CNNs) verwendet. Ist das no-free-lunch Theorem also falsch?

Nein, in der Computer Vision haben wir nicht „alle möglichen“ Probleme, sondern immer ähnliche Aufgaben. Hier scheint es aktuell so zu sein, dass CNNs dazu tendieren, besser als andere Modelle und Methoden zu funktionieren. Beachten Sie allerdings bekannte Probleme der CNNs.

Eine weitere Anwendung des Theorems sind Suchprobleme. Dies ist bei trivialen Spielen (Tic-Tac-Toe, Mühle, Schach) wenig spannend. Bei komplexen Problemen wie das Spielen von Go wird es interessanter: auch hier kennen wir die „Funktion“ nicht, die uns zum Sieg führt. Daher ist Go auch für AI-Methoden ein spannendes Problem.

Auf der Suche nach dem "besten" AI-Algorithmus, oder auch nicht

Aktuelle Beiträge

Comments