Bildverarbeitungssysteme müssen ausreichend Informationen für die jeweilige Aufgabe und Szene liefern, um einen zuverlässigen und sicheren Betrieb zu ermöglichen, sei es in einem industriellen Kontext oder bei der Betrachtung eines Serviceroboters in einem Haushalt.
Die Wettbewerbe Microsoft COCO und FAIR LVIS haben erhebliche Fortschritte in der Objekterkennung sowie die Robustheit solcher Ansätze zur Unterstützung des Szenenverständnisses aufgezeigt. Ein wichtiger Bestandteil dieser Anforderung ist die Fähigkeit von Bildverarbeitungssystemen, die Geometrie der Umgebung präzise zu erfassen, was unerlässlich wird, sobald ein Agent (zum Beispiel ein Roboter) in dieser Umgebung agieren soll.
Die weite Verbreitung von Tiefensensoren bietet zwar eine solide Grundlage für die Erfassung der Geometrie der Szene, diese jedoch gehen aber davon aus, dass die Oberflächen matt, respektive lambertsch, sind. Die Ermittlung der Geometrie von transparenten Objekten ist daher nach wie vor eine offene Herausforderung. Ihr Aussehen hängt bei allen Wellenlängen, die üblicherweise in Bildsensoren verwendet werden, stark von der Umgebung ab, in der sie beobachtet werden.
Abbildung 1 visualisiert das Problem der Tiefenschätzung. Entweder wird keine Tiefe ermittelt, was robotische Interaktion verhindert, oder die Tiefe des Hintergrunds des transparenten Objekts wird geschätzt, was zu einer unsicheren Bewegung des Roboters in der Szene führen kann. Zur Lösung dieses speziellen Problems wurden diverse lernende Methoden präsentiert, die das Farbbild zur Vervollständigung der Tiefe verwenden, LeRes, DexNeRF, TransCG und LIDF, aber ihre Generalisierungsfähigkeit bei der Begegnung mit solchen transparenten Objekten in Umgebungen mit großen Domänenverschiebung zu den Trainingsdaten muss noch bewiesen werden.
Monokulare Methoden
Einzelbildmethoden lernen die Tiefe anhand eines RGB-Bildes zu schätzen, ein Beispiel hierfür ist LeRes. Eine große Herausforderung in diesem Zusammenhang ist die Schätzung metrischer Tiefe, da ein einzelnes Bild keine Informationen über die absolute beobachtete Tiefe liefert. LeRes schätzt die Tiefe in einem zweistufigen Prozess: Zuerst sagen sie die monokulare Tiefe voraus, dann verfeinern sie den Maßstab und eine Brennweite. Unter Verwendung der anfänglichen Schätzung der Kameraintrinsik und der geschätzten Tiefenkarte wird eine Punktwolke erstellt und an ein Modul weitergeleitet, das diese Verfeinerung vorhersagt.
Mehrbildmethoden wie NeRF hingegen ist eine Methode zur Generierung neuer Ansichten einer Szene aus einer Reihe vorgegebener Ansichten durch Lernen einer impliziten Repräsentation. Ein mehrschichtiges Perzeptron lernt Dichtewerte und emittierte Farben für jede Position und Richtung innerhalb der Szene, die das Feld darstellt. Diese werden wiederum in einem Volumen-Rendering-Schema verwendet, um neue Ansichten der Szene zu generieren. Während dieser Prozess ursprünglich viele Stunden für das Rekonstruieren einer einzigen Szene benötigte, konnte dies durch die Verbesserungen mit Instant-NGP auf weniger als 15 Minuten reduziert werden. Diese Beschleunigung ist das Ergebnis einer effizienteren Positionskodierung unter Verwendung einer Multi-Resolution-Hash-Kodierung in Kombination mit effizienteren Architekturen.
In DexNeRF stellten die Autoren fest, dass die von NeRF ermittelten Dichtewerte kleine lokale Maxima entlang von Strahlen aufweisen, die durch transparente Objekte gehen. Die Festlegung eines Schwellenwerts ermöglicht die Abstandsschätzung zum ersten Dichtewert entlang des Strahls und somit eine Tiefenschätzung für transparente Objekten. Abbildung 2 vergleicht die Tiefenschätzung von LeRes und DexNeRF.
Tiefenbildmethoden
Einige Arbeiten konzentrierten sich auf die Vervollständigung der fehlenden Tiefenkarten, die von Tiefensensoren mit Hilfe von Informationen aus dem entsprechenden RGB-Bild erzeugt wurden. Die erste dieser Arbeiten, ClearGrasp, schlug vor, eine Maske und Oberflächennormalen von transparenten Objekten sowie deren Umrisse vorherzusagen.
Anhand dieser Informationen sollte ein Optimierungsschritt die Lücken in dem generierten Tiefenbild des Sensors gefüllt werden. LIDF führt eine neue lokale neuronale Repräsentation von Strahlen-Voxel-Paaren ein und verwendet diese Repräsentation, um die Belegung der Voxel vorherzusagen, aus der die Tiefe abgeleitet werden kann. TransCG hingegen schlägt ein gewöhnliches, aber sehr effizientes neuronales Faltungsnetzwerk vor, das für die Vervollständigung der Tiefe entwickelt wurde. Abbildung 2 vergleicht die Tiefenschätzung von TransCG und LIDF.
Schlussfolgerung
Wie bei jedem Lernproblem sind die Daten der Schlüssel zu einer guten Leistung. Der Trainingsdatensatz von TransCG deckt nicht jeden Teil des Sichtfeldes gleichermaßen ab, und die gerenderten Daten, die im Rahmen von LIDF erstellt wurden, modellieren nicht alle Lichteffekte, die durch transparente Objekte hervorgerufen werden, genau.
Methoden der Tiefenvervollständigung liefern vollständigere, aber weniger genaue Tiefenkarten, und zwar aus einem Einzelbild und mit sehr kurzer Laufzeit. Diese profitieren in der Tat von einem während des Trainings implizit erlernten Verständnis der Objektformen, das ihnen hilft, robuster gegenüber variierenden Objektgrößen zu sein.
Aufbauend auf den überraschend guten Ergebnissen von LeRes, scheinen größere Datensätze mit hoher Vielfalt unerlässlich, um diese Ansätze zu verbessern. Die in TransCG vorgestellte recht einfache, aber effektive Architektur wirft auch die Frage nach der Notwendigkeit von Architekturen auf, die speziell für transparente Objekte entwickelt wurden, im Gegensatz zu dem allgemeineren Problem der Tiefenvervollständigung.
Am anderen Ende des Spektrums sind Methoden wie DexNeRF am genauesten und umgehen das Problem der Verzerrung der Trainingsdaten, da sie transduktives Lernen durchführen. Sie können auch grundlegende Garantien für ihre Konvergenz bieten.
Da sie darauf ausgelegt sind, Ansichten der Szene zu rendern, können wir durch den Vergleich ihres aktuellen Renderings mit den aufgenommenen Bildern schnell die Genauigkeit der Renderings in ihrer unmittelbaren Umgebung ermitteln.
NeRF sind eine sehr junge Forschungsrichtung, und es wurden bereits erhebliche Fortschritte bei der Konvergenzgeschwindigkeit erzielt, und es werden weitere erwartet. Die Modellierung transparenter Objekte in DexNeRF ist recht einfach, und eine fortschrittlichere Modellierung der Lichtausbreitung innerhalb des gelernten Volumens könnte zu einer erheblichen Verbesserung der Qualität der erhaltenen Geometrie führen, nicht nur für transparente Objekte, sondern für jede Szene mit komplexen Materialien.
Für eine tiefergehende Diskussion der dargestellten Studie werden LeserInnen an Challenges of Depth Estimation for Transparent Objects verwiesen.
Comentários