Dieser Blogbeitrag ist der zweite Teil unserer fortlaufenden Blogserie über 3D-Computersehen. Falls Sie den ersten Blogbeitrag noch nicht gelesen haben, können Sie ihn hier nachlesen. Dieser zweite Artikel (Teil 2) gibt einen Überblick über optische 3D-Erfassungsmethoden. Wir befassen uns mit den Unterschieden zwischen den verschiedenen Sensortypen und deren Nutzen für bestimmte Anwendungsfälle. Wir gehen auch auf verschiedene 3D-Datenformate und Speicheroptionen ein.
Im ersten Blogbeitrag dieser Serie haben wir gesehen, wie die Fähigkeit, die dreidimensionale Struktur der umgebenden Welt wahrzunehmen und zu interpretieren, in einer Vielzahl von Branchen immer wichtiger wird. Aber wie können Maschinen diese zusätzliche Informationsebene erhalten? Es gibt eine Vielzahl von optischen 3D-Erfassungsmethoden, mit denen sie Tiefen- und Rauminformationen über ihre Umgebung erfassen (oder schätzen) können.
Abbildung 1 zeigt verschiedene Erfassungstechniken, die in aktive und passive Methoden unterteilt sind. Aktive Methoden erfordern eine externe Lichtquelle, die ein Signal aussendet und das reflektierte oder zurückgesendete Signal misst, während passive Methoden dies nicht tun.
In Anlehnung an die Struktur der Pipeline, die im vorherigen Beitrag vorgestellt wurde (siehe auch Abbildung 2), werden wir uns in diesem zweiten Teil auf die Erfassung und Speicherung von 3D-Daten konzentrieren. Wir werden uns insbesondere auf vier bekannte Methoden konzentrieren, nämlich Stereo Vision, Structured Light, Time of Flight und LiDAR. Für jede Methode werden wir das Funktionsprinzip, die Vor- und Nachteile sowie reale Anwendungsfälle, in denen sich die Technik auszeichnet, untersuchen. Abschließend geben wir Ihnen eine Entscheidungshilfe an die Hand, die Sie bei der Auswahl der am besten geeigneten Methode auf der Grundlage verschiedener Faktoren unterstützt, sowie eine kurze Diskussion über zukünftige Trends in der optischen 3D-Erfassung.
Durch die Vermittlung eines umfassenden Verständnisses dieser optischen 3D-Erfassungsmethoden möchten wir den Lesern das nötige Wissen vermitteln, um fundierte Entscheidungen bei der Auswahl der richtigen Technik für eine bestimmte Anwendung oder Branche zu treffen.
TLDR: Für alle, die wenig Zeit haben oder einfach zu faul sind, den ganzen Blogbeitrag zu lesen, stellen wir am Ende eine Entscheidungskarte zur Verfügung, die zeigt, wann die einzelnen Sensortypen auf der Grundlage verschiedener Anwendungsanforderungen und externer Faktoren eingesetzt werden sollten. Sie fasst den Artikel auf kurze, kompakte und visuelle Weise zusammen.
Stereo Vision, auch bekannt als stereoskopisches Sehen, ist eine passive 3D-Erfassungsmethode, die die menschliche Tiefenwahrnehmung nachahmt. Dabei werden zwei oder mehr Kameras verwendet, die in einem bestimmten Abstand voneinander (der so genannten Grundlinie) positioniert sind, um Bilder derselben Szene aus leicht unterschiedlichen Blickwinkeln aufzunehmen. Diese Bilder, die so genannten Stereopaare, werden dann von einem Stereo-Matching-Algorithmus verarbeitet, um entsprechende Punkte (Merkmale) in beiden Bildern zu identifizieren. Die Disparität zwischen diesen Punkten wird berechnet, d. h. die Differenz ihrer horizontalen Positionen im linken und rechten Bild.¹
Mit Hilfe der Geometrie der Kameraeinstellung und der Triangulation kann die Tiefe (oder die 3D-Koordinaten) jedes Punktes in der Szene bestimmt werden. Die Einzelheiten der Tiefenschätzung sind nicht Gegenstand dieses Blogbeitrags. Wer sich jedoch für eine mathematischere Behandlung des Themas interessiert, sollte sich das folgende Material ansehen.
Stereobildsensoren erzeugen in erster Linie zwei Arten von Daten: Stereopaare (linke und rechte Bilder) und Tiefenkarten (Disparitätskarten). Durch die Kombination der Tiefeninformationen aus der Tiefenkarte mit den ursprünglichen 2D-Bildern kann eine 3D-Darstellung der Szene rekonstruiert werden.
Wertvolle Eigenschaften von Stereo Vision Systemen sind:
Auf der anderen Seite leiden diese in der Regel unter:
Während sich die zuvor beschriebenen Nachteile auf die passive Stereosicht beziehen, wird bei der aktiven Stereosicht eine Lichtquelle, z. B. ein Laser oder strukturiertes Licht, verwendet, um die zu erfassende Szene zu beleuchten. Dieser Ansatz verbessert den Stereoabgleich und ermöglicht es der Methode, auch bei schlechten Lichtverhältnissen gute Ergebnisse zu erzielen. Sie ist jedoch mit höheren Kosten verbunden, da eine zusätzliche Komponente benötigt wird - der Projektor.
Stereoskopisches Sehen ist eine beliebte Erfassungsmethode, vor allem wegen ihrer Flexibilität und geringen Kosten. In der realen Welt gibt es zahlreiche Anwendungen des stereoskopischen Sehens, wie z. B:
Zusammenfassend lässt sich sagen, dass Stereo Vision eine vielseitige und kostengünstige 3D-Erfassungsmethode ist, die sich für eine Reihe von Anwendungen eignet, insbesondere wenn Tiefeninformationen in Echtzeit erforderlich sind. Die Abhängigkeit von der Textur und die Empfindlichkeit gegenüber Lichtveränderungen können jedoch in bestimmten Szenarien eine Herausforderung darstellen.
Strukturiertes Licht ist eine aktive optische 3D-Erfassungsmethode, bei der ein bekanntes Muster (häufig eine Reihe von Streifen oder ein Gitter) auf die Szene oder das zu scannende Objekt projiziert wird. Die Verformung des projizierten Musters auf der Oberfläche des Objekts wird von einer Kamera erfasst, die sich in einer bekannten Position und Ausrichtung relativ zum Projektor befindet. Die Beziehung zwischen dem Projektor, der Kamera und der Verformung des Musters ermöglicht die Gewinnung von Tiefeninformationen.⁴
Zu den von Systemen mit strukturiertem Licht erzeugten Daten gehören das aufgenommene 2D-Bild mit dem deformierten Muster und die daraus resultierende 3D-Punktwolke oder Tiefenkarte, die die 3D-Struktur des gescannten Objekts oder der Szene darstellen. Je nach den Eigenschaften des projizierten/kodierten Musters können verschiedene Algorithmen zur Dekodierung des verformten Musters und zur Berechnung der Tiefeninformationen verwendet werden.
Strukturierte Beleuchtungsanlagen profitieren davon:
Zu den Problemen, die mit diesen Konfigurationen verbunden sind, gehören:
In der realen Welt gibt es viele Situationen, in denen diese Akquisitionsmethode erfolgreich ist:
ToF-Sensoren (Time of Flight) sind eine aktive optische 3D-Erfassungsmethode, die die Zeit misst, die das ausgesendete Licht, in der Regel Infrarotlicht (IR), benötigt, um vom Sensor zum Objekt und zurück zu gelangen. Der ToF-Sensor sendet Lichtimpulse (direkte ToF-Sensoren) oder kontinuierliche Wellen (indirekte ToF-Sensoren) aus, die von der Oberfläche des Objekts reflektiert und dann vom Sensor erfasst werden. Die Abbildungslinse des Sensors sammelt das von der Szene reflektierte Licht und wandelt es in Tiefendaten auf jedem Pixel des Arrays um. Die Tiefe (bzw. die Entfernung zum Objekt) wird durch Kenntnis der Lichtgeschwindigkeit und Messung der Umlaufzeit des Lichts berechnet. Diese Tiefenkarte ist eine 2D-Darstellung der 3D-Struktur der Szene und kann mit zusätzlichen Daten, z. B. RGB-Bildern von einer separaten Kamera, kombiniert werden, um eine vollständigere 3D-Darstellung zu erhalten.⁷
Gute Eigenschaften von ToF-Sensoren sind:
Die Kehrseite dieser Sensoren ist Folgendes:
Flugzeitsensoren sind häufig in folgenden Bereichen zu finden:
LiDAR (Light Detection and Ranging) arbeitet nach dem Prinzip der Laufzeitmessung (ToF), ähnlich wie ToF-Sensoren. Das bedeutet, dass es die Entfernung durch Berechnung der Umlaufzeit des Lichts und der Lichtgeschwindigkeit bestimmt. LiDAR verwendet jedoch in der Regel mehrere Laserstrahlen (Hochleistungslichtquellen) und einen rotierenden oder oszillierenden Mechanismus, um einen größeren Bereich abzudecken oder eine vollständige 360-Grad-Sicht auf die Umgebung zu erhalten. Die Laserstrahlen werden in der Regel auf eine bestimmte Richtung und einen bestimmten Winkel ausgerichtet, und die Entfernung wird für diese Koordinaten gemessen. Daher handelt es sich bei den resultierenden Daten um eine Punktwolke (und nicht um eine Tiefenkarte) und um eine direkte Darstellung der Umgebung, die genaue räumliche Informationen liefert.
Die von LiDAR-Sensoren erzeugten Daten umfassen die rohen Zeit- und Intensitätsinformationen für jeden Laserimpuls und die resultierende 3D-Punktwolke, die die 3D-Struktur der gescannten Umgebung darstellt. Die Punktwolke enthält die X-, Y- und Z-Koordinaten jedes Punktes im 3D-Raum, und in einigen Fällen können auch zusätzliche Informationen wie Intensität oder Farbe enthalten sein.
Zu den Vorteilen von LiDAR gehören:
Weniger wünschenswerte Eigenschaften dieser Sensoren sind:
Nachdem wir uns nun mit den verschiedenen Arten von 3D-Erfassungsmethoden beschäftigt haben. Es ist auch wichtig, darüber nachzudenken, welche Art von Daten diese Sensoren erzeugen und wie man sie am besten speichert.
Die von diesen Sensoren erfassten Daten liegen in der Regel in einer der folgenden Formen vor: Tiefenkarten oder Punktwolken.
Um eine Punktwolke aus einer 2D-Tiefenkarte zu erzeugen, werden die Tiefeninformationen (Z-Koordinaten) jedes Pixels in der Tiefenkarte mit den entsprechenden räumlichen Informationen (X- und Y-Koordinaten) des Pixels im Sichtfeld des Sensors kombiniert. Dieser Vorgang wird als "Rückprojektion" oder "Unprojektion" bezeichnet.
Bei der Rückprojektion werden die intrinsischen und extrinsischen Parameter des Sensors, wie z. B. Brennweite, Sensorauflösung und Sensorposition, verwendet, um die 2D-Tiefenkarteninformationen in 3D-Koordinaten umzuwandeln. Dieser Prozess wird normalerweise in Software implementiert und ist in verschiedenen Open-Source-Bibliotheken wie Point Cloud Library (PCL), Open3D und OpenCV verfügbar.
Es gibt zwei Hauptkategorien von Formaten für die Speicherung von Punktwolkendaten: ASCII und LAS/LAZ.¹³
Bei ASCII-Formaten werden einfache Textdateien verwendet, in denen die X-, Y- und Z-Koordinaten jedes Punktes durch ein Zeichen, z. B. ein Leerzeichen oder ein Komma, getrennt sind. Diese Dateien können auch einen Tabellenkopf mit Metadaten und zusätzlichen Informationen für jeden Punkt, wie Intensität oder Amplitude, enthalten. Übliche Dateierweiterungen für ASCII-Dateien sind TXT, XYZ, PTS und PTX. OBJ-Dateien können auch zum Speichern von Punktwolkendaten verwendet werden, obwohl diese Methode für große Datensätze ineffizient sein kann (OBJ ist für die Speicherung geometrischer Eigenschaften von Objekten gedacht und enthält unnötige Mengen an Informationen für Punktwolkendaten).
Im Gegensatz dazu sind die LAS/LAZ-Formate binäre Dateiformate, die speziell für die Speicherung und den Austausch von Lidar-Daten entwickelt wurden.
Da diese Daten unstrukturiert sind, ist es üblich, sie in einem Data Lake zu speichern, entweder in der Cloud oder vor Ort, je nachdem, wie Sie eingerichtet sind. Cloud-basierte Speicherdienste wie Google Cloud Storage, Amazon S3 und Azure Blob Storage können zur Speicherung und Verwaltung großer Punktwolkendatensätze verwendet werden.
In diesem Blogbeitrag haben wir uns mit verschiedenen optischen 3D-Erfassungsmethoden beschäftigt, darunter Stereo Vision, strukturiertes Licht, Time of Flight und LiDAR. Jede Technik hat ihre eigenen Funktionsprinzipien, Vor- und Nachteile und eignet sich daher für unterschiedliche Anwendungen und Szenarien. Die unten stehende Entscheidungsübersicht (Abbildung 9) bietet eine einfache Möglichkeit, den am besten geeigneten Sensor für eine Reihe von allgemeinen geschäftlichen oder praktischen Anforderungen auszuwählen. Beachten Sie, dass es sich bei dieser Entscheidungsübersicht um einen allgemeinen Leitfaden handelt und die beste Wahl für eine bestimmte Anwendung von verschiedenen anderen Faktoren abhängen kann.
Neben den erörterten Methoden ist auch das Aufkommen hybrider Systeme erwähnenswert, die mehrere 3D-Erfassungstechniken kombinieren, um Einschränkungen zu überwinden und die Gesamtleistung zu verbessern. Fortschritte bei der Hardware und Software werden die Echtzeitverarbeitung von 3D-Daten verbessern und eine schnellere und effizientere Analyse von Szenen ermöglichen. Die Integration von 3D-Sensortechnologie und Computer Vision mit anderen Technologien wie Augmented Reality, Virtual Reality und Robotik wird neue Möglichkeiten für Interaktion und Automatisierung schaffen. Und natürlich können wir mit der weiteren Verbesserung der Techniken des maschinellen Lernens genauere und robustere Algorithmen erwarten, die die 3D-Rekonstruktion komplexer Umgebungen sowie die Erkennung und Verfolgung von Objekten mit größerem räumlichen Bewusstsein erleichtern werden.
Wir hoffen, dass dieser Blog-Beitrag Ihnen wertvolle Einblicke in die Welt der optischen 3D-Erfassungsmethoden gegeben hat und Ihnen hilft, fundierte Entscheidungen bei der Auswahl der geeigneten Technik für Ihre Bedürfnisse zu treffen.
[1] - Sanja Fidler. Einführung in das Bildverstehen: Tiefe aus Stereo. Universität von Toronto - CSC420, 2021.
[2] - Toyota Forschungsinstitut. Klares Sehen: Fortschrittliches robotisches Stereosehen.
[3] - Stereo Labs. Spatial Analytics Lösung.
[4] - D. Scharstein und R. Szeliski, "High-accuracy stereo depth maps using structured light," 2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2003. Proceedings, Madison, WI, USA, 2003, S. I-I, doi: 10.1109/CVPR.2003.1211354.
[5] - Zivid-Anwendungen. Industrielle Wartungsinspektion.
[6] - "Zahnärztliche 3D-Scanner-Technologie im Labor: Strukturiertes Licht oder Laserlicht-Scanning?". BIZ Dental.
[7] - Larry Li. "Time-of-Flight-Kamera - Eine Einführung". Texas Instruments.
[8] - Pat Marion. "Umdrehen des Drehbuchs mit Atlas". Boston Dynamics.
[9] - Magic Leap 2ein immersives Headset mit 3D Time-of-Flight.
[10] - Liu, Shan. 3D-Punktwolkenanalyse: Traditionelle, Deep Learning- und erklärbare maschinelle Lernmethoden. Cham: Springer International Publishing AG, 2022.
[11] - "Intelligente Lidar-Lösungen für die Zukunft". Waymo, September 21, 2022.
[12] - "3 Wege, wie LiDAR die moderne Landwirtschaft verändern kann". ACI Corporation.
[13] - "Ein Überblick über die Optionen für die Speicherung und den Zugriff auf Punktwolkendaten in der Cloud". NASA ESDIS Standards Coordination Office, Februar 2022.