19. Mai 2023

3D Computer Vision: Die Erschließung der dritten Dimension [Teil 1]

Mitwirkende
Francisco Pereira
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Dieser Blogbeitrag ist der erste Teil unserer fortlaufenden Blogserie über 3D-Computersehen. Dieser erste Artikel (Teil 1) bietet einen Überblick über das 3D-Computersehen und die heutige Nutzung dieser Technologie und ist somit für ein breites Publikum geeignet, das sich für dieses Thema interessiert. Die folgenden Blogbeiträge (Teil 2 und 3) richten sich an ein eher technisches Publikum und an diejenigen, die 3D-Computer-Vision-Anwendungen implementieren möchten.

Einführung

In der heutigen schnelllebigen Welt der Technologie ist es wichtiger denn je, die Details unserer Umgebung zu verstehen und zu interpretieren. In den letzten Jahren haben Convolutional Neural Networks (kurz CNNs) die Computer Vision völlig verändert und ermöglichen es uns, Bilder mit unglaublicher Genauigkeit zu analysieren. Da Automatisierung, Robotik und Einzelhandelsanwendungen weiter zunehmen, steigt auch die Nachfrage nach fortschrittlicheren Bildverarbeitungssystemen. Hier kommt die 3D-Computer Vision ins Spiel, die Tiefeninformationen und ein Verständnis ermöglicht, das früher für herkömmliche 2D-Computer Vision Systeme unerreichbar war.

In unserer kommenden Serie von Blogbeiträgen werden wir uns mit den Vorteilen der 3D-Computer-Vision befassen und untersuchen, wie diese Technologie verschiedene Sektoren transformiert. Indem wir uns diesem Thema durch den Rahmen einer typischen Pipeline für maschinelles Lernen nähern (Abbildung 1), erhalten wir Einblicke in den Prozess der Erfassung dreidimensionaler Daten, untersuchen die verschiedenen beteiligten Sensoren und erforschen schließlich die Vielzahl von Methoden zur Verarbeitung und Gewinnung von Werten aus diesen Informationen.

Abbildung 1: Die Pipeline für maschinelles Lernen. In dieser Blogpost-Reihe gehen wir darauf ein, wie 3D-Computer-Vision in jedem einzelnen Schritt des Weges durchgeführt wird.

In diesem ersten Teil der Serie entdecken wir die aufregende Welt der 3D-Computer-Vision, ihre realen Anwendungen und wie sie die Zukunft zahlreicher Branchen prägen wird.

2D vs. 3D Computer Vision

Um die Vorteile der 3D-Computersichttechnik wirklich zu schätzen, ist es wichtig, die Unterschiede zwischen 2D- und 3D-Computersichttechnik zu verstehen. Im Kern handelt es sich bei der Computer Vision um eine Technologie, die visuelle Daten verarbeitet und interpretiert. Bei der 2D-Computervision werden die Daten auf der Grundlage von Pixelwerten, Farben und Texturen in einem flachen, zweidimensionalen Bild analysiert, ähnlich wie wir Fotos betrachten. Während es sich bei Aufgaben wie Bilderkennung und Klassifizierung als sehr erfolgreich erwiesen hat, ist es beim Verständnis räumlicher Beziehungen und der Tiefe unzureichend, was es für Aufgaben, die eine genaue Wahrnehmung realer Umgebungen erfordern, weniger geeignet macht. Durch die Bereitstellung von Tiefeninformationen kann die 3D-Computersicht viele der Einschränkungen der 2D-Computersicht überwinden, z. B. das Verständnis räumlicher Beziehungen, die Handhabung von Verdeckungen und die Überwindung von Problemen im Zusammenhang mit Beleuchtung und Schatten.

Um Ihnen die Unterschiede zwischen 2D- und 3D-Computer Vision zu verdeutlichen, lassen Sie uns ein einfaches, alltägliches Beispiel verwenden. Stellen Sie sich vor, Sie sehen ein Foto eines gemütlichen Wohnzimmers mit Möbeln, die an verschiedenen Stellen aufgestellt sind. Mit 2D-Computer Vision ist es einfach, die verschiedenen Möbelstücke und ihre Farben zu identifizieren und zu erkennen. Allerdings kann es schwierig sein, die relativen Abstände zwischen den Objekten und ihre tatsächliche Größe zu bestimmen, da es keine Tiefeninformationen gibt. Wir Menschen müssen uns auf visuelle Anhaltspunkte (Abbildung 2) wie Schatten, Perspektive und überlappende Objekte verlassen, um die Tiefe eines 2D-Bildes zu erkennen, aber diese Anhaltspunkte sind nicht immer eindeutig.

Abbildung 2: Monokulare Tiefenwahrnehmung. Ein interessantes Beispiel dafür, wie Perspektive und visuelle Hinweise täuschen können, finden Sie im Ames-Raum.

Stellen Sie sich nun vor, Sie betreten dasselbe Wohnzimmer. Ihr Verständnis des Raums, der Möbel und ihrer Positionen im Verhältnis zueinander wird plötzlich viel klarer, dank der binokularen Tiefeninformationen, die unser Sehvermögen liefert (unsere Fähigkeit, die Tiefe mit beiden Augen wahrzunehmen). Das ist die Art von verbesserter Wahrnehmung, die 3D-Computersehen für Maschinen bietet und es ihnen erleichtert, ihre Umgebung zu verstehen und mit ihr zu interagieren. Diese Fähigkeit ist für verschiedene Aufgaben von entscheidender Bedeutung, z. B. für die Navigation von Robotern, die Manipulation von Objekten und die genaue Messung von Volumen und Form, so dass Maschinen besser mit der Welt interagieren und auf sie reagieren können.

Die von der 3D-Computer Vision bereitgestellten Tiefeninformationen spielen ebenfalls eine entscheidende Rolle bei der Verbesserung der Genauigkeit. Während die 2D-Computer Vision manchmal Schwierigkeiten hat, zwischen Objekten in einer unübersichtlichen Umgebung zu unterscheiden, nutzt die 3D-Computer Vision die Tiefendaten, um zwischen ihnen zu unterscheiden, und stellt so sicher, dass Aufgaben mit größerer Präzision und Zuverlässigkeit ausgeführt werden (Abbildung 3).

Abbildung 3: Verwendung von 3D-Vision zur Unterscheidung verschiedener Produkte in einer unübersichtlichen Umgebung (Quelle)

Ein weiterer bemerkenswerter Vorteil des 3D-Computersehens ist seine Robustheit gegenüber Licht und Schatten. In der Welt des 2D-Computersehens können sich Änderungen der Lichtverhältnisse und das Vorhandensein von Schatten erheblich auf die Leistung auswirken, da sie sich ausschließlich auf Farb- und Intensitätsdaten stützt. Durch die Verwendung von Tiefeninformationen können wir diese Probleme jedoch leicht überwinden. Insgesamt bietet 3D-Computer Vision eine hohe Widerstandsfähigkeit in einer Vielzahl von Umgebungen und Beleuchtungsbedingungen, die es Systemen ermöglichen, konsistent und zuverlässig zu arbeiten.

Bisher haben wir gesehen, dass 3D-Vision-Systeme zahlreiche Vorteile gegenüber 2D-Systemen bieten, da sie eine zusätzliche Informationsebene bereitstellen, die die Leistung verbessern kann. Allerdings bringen sie auch Komplexität in Bezug auf die Hardware-Einrichtung, die Speicherkapazität und die Verarbeitungszeiten mit sich. Es ist von entscheidender Bedeutung, die spezifischen Anwendungsanforderungen zu bewerten und festzustellen, ob die Vorteile des Einsatzes von 3D-Vision die Herausforderungen überwiegen. Um diesen Entscheidungsprozess zu unterstützen, untersuchen wir im folgenden Abschnitt, wie 3D-Daten neue Möglichkeiten und Anwendungen in verschiedenen Branchen erschließen.

Anwendungen und Trends in der realen Welt

Die 3D-Computersichttechnik hat in verschiedenen Branchen einen erheblichen Einfluss, da sie neue Möglichkeiten bietet und traditionelle Aufgaben umgestaltet. Ein großer Teil dieses Wandels war auch dank der Fortschritte bei Deep-Learning-Modellen möglich, bei denen neue Modellarchitekturen und die Sammlung von immer mehr Daten zu erheblichen Verbesserungen in diesem Bereich geführt haben. Lassen Sie uns einige der spannenden Anwendungen und Trends in verschiedenen Schlüsselsektoren erkunden.

Herstellung und Qualitätskontrolle

In der Fertigung verbessert die 3D-Computersichttechnik die Robotik und Automatisierung mit Tiefenwahrnehmung, so dass Roboter ihre Umgebung besser verstehen und Aufgaben mit höherer Präzision ausführen können, z. B. die Entnahme und Platzierung von Artikeln oder den Zusammenbau von Komponenten. Auch die Inline-Qualitätskontrolle und -Inspektion profitieren in hohem Maße von der Kombination aus 3D-Computer-Vision und maschinellem Lernen. 3D-Deep-Learning-Modelle ermöglichen uns eine genaue Objekterkennung und -erfassung, die es den Systemen erleichtert, Defekte zu identifizieren, genaue und präzise Messungen vorzunehmen und Unstimmigkeiten in den hergestellten Produkten mit größerer Zuverlässigkeit zu erkennen. Diese verbesserte Genauigkeit führt zu höherer Produktqualität und geringerem Ausschuss, was für die Aufrechterhaltung eines Wettbewerbsvorteils auf dem heutigen schnelllebigen Markt entscheidend ist. Die Integration von 3D-Computerbildverarbeitung mit neuen Technologien wie Industrie 4.0 und dem Internet der Dinge (IoT) ebnet den Weg für intelligente Fabriken. Die Systeme werden schneller und effizienter, und es ist zu erwarten, dass mehr Echtzeitprozesse nahtlos in die Fertigungsabläufe integriert werden.

Abbildung 4: Beispiel für einen Anwendungsfall der 3D-Qualitätsprüfung; Messung des Winkels von angehobenen Dosenlaschen (Quelle).

Autonomes Fahren

In der Automobilindustrie ist 3D-Computersehen für selbstfahrende Autos unverzichtbar, da es ihnen ermöglicht, ihre Umgebung genau wahrzunehmen und zu verstehen. Unternehmen wie Waymo, Cruise und Zoox nutzen multimodale Deep-Learning-Modelle und fortschrittliche 3D-Vision-Technologie zur Hinderniserkennung, Spurverfolgung und Navigation und ebnen damit den Weg für einen sichereren und effizienteren Transport. In diesem Video erfahren Sie, wie Zoox das autonome Fahren mit Hilfe von Computer Vision löst.

Abbildung 5: 3D-Kartierung der Umgebung für die autonome Navigation (Quelle).

Gesundheitswesen

Verschiedene medizinische Anwendungen wie chirurgische Unterstützung, Diagnostik und medizinische Bildgebung nutzen die 3D-Computervision. Ein anatomischer Visualisierungsdienst¹ erstellt beispielsweise 3D-Modelle der Anatomie von Patienten und unterstützt Chirurgen bei der Planung und Durchführung von Eingriffen. Während der Operation kann das Modell auf einer Konsole betrachtet und manipuliert werden, was die chirurgische Genauigkeit und Effizienz verbessert.

Abbildung 6: Anatomische 3D-Modelle ermöglichen Ärzten die Planung und Durchführung von Eingriffen(Quelle)

Luftbildaufnahmen

Mit 3D-Vision ausgestattete Drohnen können detaillierte topografische Daten liefern und so Aufgaben wie Kartierung, Vermessung und Umweltüberwachung² erleichtern. Sie kommen auch der Landwirtschaft zugute, indem sie die Gesundheit der Pflanzen überwachen, den Bodenzustand analysieren und den Ressourceneinsatz optimieren. Dies ermöglicht Präzisionsanbaumethoden, die zu höheren Erträgen und einer nachhaltigeren Landwirtschaft führen. Die Kombination von Drohnen mit 3D-Vision ermöglicht auch die sichere Inspektion von Infrastrukturen und Anlagen wie Stromnetzen, Baustellen und Öl- und Gasraffinerien. Die gescannten 3D-Modelle können in eine 3D-Objekterkennung eingespeist werden.

Abbildung 7: 3D-Inspektion eines Stromnetzes (Quelle).

Logistik

Auch der Einzelhandel und die Logistik profitieren von der transformativen Kraft der 3D-Computervision. In der Bestandsverwaltung kann 3D-Computer-Vision einzelne Artikel selbst in unübersichtlichen Umgebungen genau erkennen und verfolgen, was es einfacher macht, genaue Lagerbestände zu halten und die Lagerorganisation zu optimieren. Darüber hinaus kann es in Optimierungsprobleme integriert werden, wie z. B. die Minimierung der Kosten für Verpackungs- und Versandvorgänge durch Scannen der Abmessungen von Objekten und deren Abgleich mit dem verfügbaren Verpackungsraum (z. B. in einem Container).

Einzelhandel

Im Einzelhandel wird die Technologie in kundenorientierte Anwendungen wie virtuelle Umkleidekabinen und Augmented-Reality-Einkaufserlebnisse integriert, die den Verbrauchern ein interessanteres und persönlicheres Erlebnis bieten. Apple zum Beispiel hat LiDAR⁴ in die Pro-Versionen seiner iPhones integriert, was eine Reihe neuer Anwendungen ermöglicht. Mit der IKEA Place App können Nutzer beispielsweise Produkte in ihrem Zuhause visualisieren, bevor sie einen Kauf tätigen (siehe Video).

Die generative KI hat sich auch im 3D-Bereich durchgesetzt. Deep-Learning-Modelle wie pix2pix3D⁵ und Imagine 3D⁶ ermöglichen die Erstellung von 3D-Darstellungen von Objekten unter Verwendung von handgezeichneten Beschriftungen bzw. textuellen Aufforderungen. Obwohl diese Technologie noch in den Kinderschuhen steckt, birgt sie das Potenzial, faszinierende Anwendungsfälle im Einzelhandel zu erschließen.

Abbildung 8: Mit der IKEA Place App können Nutzer verschiedene Möbel in ihrem eigenen Raum ausprobieren (Quelle).

Mit der weiteren Entwicklung der 3D-Computerbildverarbeitung werden wir noch mehr innovative Anwendungen und Trends in verschiedenen Branchen erleben. Die Fähigkeit, Tiefe und räumliche Beziehungen genau wahrzunehmen, verbessert nicht nur bestehende Prozesse, sondern eröffnet auch neue Möglichkeiten für Unternehmen, ihre Abläufe zu verbessern und der Konkurrenz voraus zu sein.

Fazit

Wie wir gesehen haben, bietet die 3D-Computerbildverarbeitung eine Fülle von Vorteilen gegenüber der herkömmlichen 2D-Computerbildverarbeitung und öffnet neue Türen für Innovationen und Leistungssteigerungen in einer Vielzahl von Branchen. Der Fertigungssektor wird von der Einführung von 3D-Computer-Vision-Technologien erheblich profitieren, aber die Auswirkungen gehen weit über diese Branche hinaus. Die Zukunft der 3D-Computerbildverarbeitung ist gekennzeichnet durch erweiterte Möglichkeiten und neue Anwendungen in verschiedenen Sektoren wie dem Einzelhandel, der Logistik und sogar dem Gesundheitswesen. Durch den Einsatz dieser transformativen Technologie können Unternehmen ein neues Maß an Effizienz, Produktivität und Innovation erreichen und damit nicht nur ihre Abläufe, sondern auch die Branchen, in denen sie tätig sind, auf ein höheres Niveau bringen.

Zusammenfassend lässt sich sagen, dass die Einführung von 3D-Computer Vision nicht nur ein technologischer Sprung ist, sondern auch ein strategischer Schritt für zukunftsorientierte Unternehmen. Es ist an der Zeit, das Potenzial von 3D-Computer-Vision-Lösungen für Ihr Unternehmen zu erkunden und in einem zunehmend wettbewerbsintensiven Umfeld die Nase vorn zu haben.

Dieser erste Teil der Blogpost-Serie diente als Einführung in die Welt der 3D-Vision. Mit Blick auf die in Abbildung 1 dargestellte Pipeline werden wir uns in unserem nächsten Beitrag eingehender mit der Erfassung und Speicherung von Daten befassen. Wir werden untersuchen, wie diese Daten erzeugt werden und wie die Auswahl des Sensortyps von verschiedenen Faktoren wie technischen Anforderungen, Umgebungserwägungen, geschäftlichen Zwängen und anderen relevanten Faktoren beeinflusst werden kann.

Referenzen

[1] - Iris, 3D-Dienst für anatomische Visualisierung: https://www.intuitive.com/en-us/products-and-services/da-vinci/vision/iris

[2] - Parrot-Drohnen und autonome Photogrammetrie: https://www.parrot.com/en/drones/anafi-ai

[3] - DJI Inspektion der Infrastruktur aus der Luft: https://enterprise.dji.com/electricity/power-grid-management

[4] - LiDAR im IPad Pro von Apple: https://www.apple.com/newsroom/2020/03/apple-unveils-new-ipad-pro-with-lidar-scanner-and-trackpad-support-in-ipados/

[5] - Deng et al. "3D-bewusste bedingte Bildsynthese". CVPR 2023.

[6] - Imagine 3D v1.2.

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Großes Sprachmodell
Stiftung Modelle
Unternehmen
Unser Team
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision