28. April 2021

So wählen Sie eine Kamera für Machine Learning aus

Mitwirkende
Arne Vandendorpe
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Einführung

Bei ML6 entwickeln wir regelmäßig kundenspezifische Modelle für maschinelles Lernen, um Kunden bei der Automatisierung von Bildverarbeitungsaufgaben wie Erkennung, Erkennung, Qualitätsbewertung usw. zu unterstützen. Oft ist die Hardware bereits vorhanden und wir gehen von vorhandenen Bildern aus. Zunehmend erhalten wir jedoch auch Anfragen zur Beratung bei der Kameraeinrichtung. Dies gibt uns die Möglichkeit, sicherzustellen, dass die aufgenommenen Bilder den richtigen Detailgrad aufweisen, damit das maschinelle Lernmodell die erforderlichen Merkmale ableiten kann.

Die Auswahl der optimalen Kameraeinstellung für Ihr Computer-Vision-Projekt kann sich wie eine gewaltige Herausforderung anfühlen. Oft ist dieses Gefühl nicht unberechtigt. Glücklicherweise kann das Verständnis einiger wichtiger Kameramerkmale und -funktionen Ihnen helfen, die Faktoren zu erkennen, die Sie berücksichtigen müssen.

Kamerasensor und Objektiv

Die erste Entscheidung, die zu treffen ist, betrifft die Wahl des Kamerasensors und des Objektivs. Auf das Wesentliche reduziert, lautet die Frage: Wie groß ist die Szene, die wir mit welcher Detailgenauigkeit und aus welcher Entfernung einfangen wollen?

Sensor

Die Abbildung unten zeigt den Sensor einer Digitalkamera. Während der Belichtung treffen die einfallenden Lichtstrahlen auf die Pixel des Sensors, und die daraus resultierende elektrische Ladung wird pro Pixel ausgelesen, um ein Bild zu erzeugen. Die Anzahl der Pixel auf einem Sensor, also die Auflösung, stellt natürlich eine Obergrenze für die Detailgenauigkeit dar, die erfasst werden kann.

Ein digitaler Kamerasensor mit einer Auflösung von 70 Pixeln

Vielleicht sind Sie jetzt versucht, einfach den Sensor mit der höchsten Auflösung zu kaufen, den Ihr Budget zulässt, aber das ist wahrscheinlich keine gute Idee. Der Grund dafür ist der dreifache Spagat, der bei jedem Kamerasensor berücksichtigt werden muss: zwischen Auflösung, Pixelgröße und Sensorgröße. Während die Auflösung bei einer festen Sensorgröße steigt, nimmt die Größe jedes einzelnen Pixels ab. Die daraus resultierenden kleineren Pixel sind anfälliger für Rauschen und schneiden bei schlechten Lichtverhältnissen schlechter ab. Eine Vergrößerung des Gesamtsensors könnte dieses Problem lösen, aber das zusätzliche Silizium hat einen höheren Preis zur Folge. Es ist also ein Balanceakt. Eine Liste der gängigen Sensorgrößen finden Sie hier

Nun, da wir uns alle einig sind, was Kameraauflösung bedeutet, wie entscheiden Sie, ob sie hoch genug ist? Eine einfache Annäherung besteht darin, sich zu fragen, was das kleinste Detail ist, das in Ihrem Bild zu erkennen sein muss. Betrachten Sie das folgende Beispiel. Unser Aufnahmeobjekt ist ein 2 Meter großer Mann (einschließlich Zylinder), und wir möchten einzelne Haare in seinem Schnurrbart erkennen, die jeweils 1 Millimeter dick sind.


Die Mindestauflösung beträgt dann:

Um dieses Mindestmaß an Details zu erreichen, sind mindestens 2000 vertikale Pixelreihen oder 4 Megapixel für einen quadratischen Sensor erforderlich.

Objektiv

Das vorige Beispiel wurde jedoch dem massiven Beitrag des Objektivs zum resultierenden Bild nicht gerecht. Wir sind einfach davon ausgegangen, dass unser Objekt scharf ist und genau auf den Sensor projiziert wird. In Wirklichkeit wird das Sichtfeld sowohl von der Größe unseres Sensors als auch von der Brennweite des Objektivs bestimmt. Letztere ist der Abstand zwischen dem Objektiv und dem Punkt, an dem die senkrecht einfallenden Lichtstrahlen zusammenlaufen.

Die folgende Abbildung zeigt, wie sich Sensorgröße und Brennweite auf das Sichtfeld auswirken: Das Sichtfeld nimmt mit abnehmender Brennweite und zunehmender Sensorgröße zu. Der Einfachheit halber gehen wir von einem großen Arbeitsabstand aus, der es uns ermöglicht, den Abstand zwischen Objektiv und Kamerasensor gleich der Brennweite zu setzen.


Denken Sie daran, dass das Objekt auf dem Bild kleiner und weniger detailliert erscheint, wenn das Sichtfeld für Ihr Zielobjekt zu groß ist. Eine kurze Google-Suche nach "Field of View Calculator" bietet eine Vielzahl von Tools, die Ihnen bei der Auswahl der benötigten Sensorgröße und Brennweite helfen. Zwei gute Beispiele sind die folgenden: ein einfacher und ein erweiterter Rechner.

Merkmale der Kamera

Inzwischen sollten Sie bereits eine Vorstellung davon haben, welche Auflösung und Größe Ihr Kamerasensor haben sollte und mit welchem Objektiv er kombiniert werden soll. Ganz so weit sind wir aber noch nicht. Es sind noch einige Fragen offen, die sich hauptsächlich auf die technischen Merkmale beziehen.

CCD-Sensor vs. CMOS-Sensor

Die beiden Haupttypen elektronischer Bildsensoren sind der ladungsgekoppelte Sensor (CCD) und der Aktivpixelsensor (CMOS). Beide Typen funktionieren wie der typische Sensor, den wir zuvor beschrieben haben, aber der Unterschied liegt in der Art und Weise, wie jeder Pixelwert gelesen wird. Bei einem CCD-Sensor können die Pixelwerte nur pro Zeile gelesen werden. Jede Pixelreihe wird einzeln in ein Ausleseregister geschoben. Im Gegensatz dazu kann bei einem CMOS-Sensor jedes Pixel einzeln ausgelesen werden.

Wir raten Ihnen, sich für einen CMOS-Sensor zu entscheiden, wann immer Ihre Situation es zulässt. Er ist billiger und verbraucht weniger Energie, ohne dass die Bildqualität in den meisten Fällen darunter leidet. Außerdem können durch das parallele Auslesen der Pixelwerte höhere Bildraten erzielt werden. Es gibt jedoch einige spezifische Szenarien, in denen CCD-Sensoren immer noch die Oberhand behalten. Zum Beispiel, wenn lange Belichtungszeiten erforderlich sind und sehr rauscharme Bilder benötigt werden, wie in der Astronomie.

Global Shutter vs. Rolling Shutter

Bei einem Global Shutter wird jedes Pixel genau zur gleichen Zeit belichtet, während bei einem Rolling Shutter die Pixelreihen in einer bestimmten Reihenfolge belichtet werden, z. B. von oben nach unten.

Der größte Vorteil des Global Shutter gegenüber dem Rolling Shutter ist, dass er nicht unter denselben Verzerrungseffekten leidet. Im folgenden Beispiel wird das Bild eines sich drehenden Ventilators aufgenommen. Die schnelle Bewegung der Flügel führt bei einem Rolling Shutter zu einer sehr deutlichen Verzerrung. Dieser Effekt ist am deutlichsten, wenn sich große Objekte mit hoher Geschwindigkeit bewegen. Im Gegensatz dazu weist der Global Shutter eine perfekte zeitliche Korrelation zwischen allen Teilen des Bildes auf. Ein weiterer großer Vorteil eines Global Shutters ist, dass die Synchronisierung mit Peripheriegeräten viel einfacher ist, da die Belichtung zu einem einzigen Zeitpunkt beginnt.

Beispiel für die räumliche Verzerrung, die durch einen Rolling Shutter bei großen, sich schnell bewegenden Objekten entsteht. https://www.oxinst.com/learning/uploads/inline-images/rolling-global2-20171121154055.jpg

Der Nachteil eines Global Shutters ist, dass er in der Regel teurer ist. Ursprünglich waren Global Shutter nur für die teureren CCD-Sensoren verfügbar, während CMOS-Sensoren Rolling Shutter verwenden. Heutzutage sind Global Shutter jedoch auch für einige CMOS-Sensoren erhältlich. Ein weiterer Punkt, der für den Rolling Shutter spricht, ist, dass er eine höhere Bildrate bei der Aufnahme ermöglicht.

Manuelle Blende vs. Automatische Blende vs. P-Iris

Die Blende ist die Öffnung, die bestimmt, wie viel Licht durch ein Objektiv fällt. Eine große Blende lässt viel Licht durch und umgekehrt eine kleine Blende. Ähnlich wie beim menschlichen Auge wird die Blende durch die Irisblende gesteuert. Unsere anfängliche Diskussion über Kamerasensoren und Objektive konzentrierte sich darauf, wie man ein detailliertes Bild eines Objekts mit einer bestimmten Größe in einer bestimmten Entfernung erhält. Wir haben dann absichtlich die Wirkung der Blende auf unser Kamerasystem ausgelassen, um die Dinge nicht zu sehr zu verkomplizieren. Sie spielt jedoch eine entscheidende Rolle bei der Aufnahme von scharfen und kontrastreichen Bildern.

Am auffälligsten ist der Einfluss der Blende auf die Schärfentiefe. Es kann nur eine Bildebene wirklich scharf sein, aber Objekte in einem Bereich nahe dieser Brennebene können trotzdem mehr oder weniger scharf erscheinen. Die Größe dieses Bereichs wird als Schärfentiefe bezeichnet. Eine große Blende führt zu einer geringen Schärfentiefe, während eine kleine Blende eine größere Schärfentiefe erzeugt. Eine zu klein gewählte Blende könnte jedoch längere Belichtungszeiten erfordern und zu weniger scharfen Bildern führen.

Betrachten wir das folgende Beispiel, bei dem unser ursprüngliches Objekt nun einen Freund mitgebracht hat. Obwohl der Fokus immer noch auf unserem ursprünglichen Objekt liegt, ist die Schärfentiefe groß genug, um auch den Freund mit angemessenem Detail und Kontrast zu erfassen. Eine optimale Schärfentiefe kann für Ihr Projekt zum maschinellen Lernen von entscheidender Bedeutung sein. Nehmen wir an, Sie möchten ein Fußballspiel analysieren. Um die Spieler genau zu erkennen und zu verfolgen, müssen sie alle im Detail erfasst werden. Daher sollte die Tiefenschärfe idealerweise das gesamte Fußballfeld abdecken.

Wenn man die Funktion der Blende und die Wirkung der Blendenöffnung kennt, welche Möglichkeiten hat man und welche sollte man wählen? Die einfachste Variante ist die manuelle Blende. Sie muss von Hand eingestellt werden und passt sich nicht dynamisch an die Lichtverhältnisse an. In kontrollierten Umgebungen mit konstanten Lichtverhältnissen mag dies Ihren Bedürfnissen entsprechen. Andere, dynamischere Umgebungen erfordern eine automatische Lösung wie die automatische Blende oder die präzise Blende (P-Blende). Der Hauptunterschied zwischen beiden besteht darin, dass die automatische Blende nur auf Veränderungen der Lichtverhältnisse reagiert, während die P-Blende aktiv mit der Kamerasoftware kommuniziert und direkt versucht, die Bildqualität zu optimieren. Darüber hinaus verwendet die P-Blende Hardware, die eine viel präzisere Steuerung ermöglicht. Natürlich ist die fortschrittlichere P-iris mit einem höheren Preis verbunden.

Monochrom vs. Farbe

Für bestimmte Anwendungsfälle, in denen Farbinformationen keinen zusätzlichen Nutzen bringen, sollte eine Monochromkamera in Betracht gezogen werden. Sie bietet eine höhere Lichtempfindlichkeit und eine höhere räumliche Auflösung bei kleinerer Sensorgröße und geringerer Sensorauflösung.

Um zu verstehen, warum das so ist, ist es wichtig, darüber zu sprechen, wie Kameras Farbe "sehen". Die gängigste Methode ist der Bayer-Filter. Jedes Pixel auf dem Sensor ist entweder mit einem Rot-, Blau- oder Grünfilter ausgestattet. Das hat zur Folge, dass das entsprechende Pixel nur für die entsprechende Farbe empfindlich ist. Das bedeutet auch, dass der Grünwert an einem Pixelsensor mit einem Blaufilter nur durch Berücksichtigung der Werte der umliegenden Pixelsensoren mit einem Grünfilter angenähert werden kann. Dadurch geht die räumliche Auflösung verloren.

Flächenscan vs. Zeilenscan

Flächenkameras sind das, was die meisten Menschen als normale Kameras bezeichnen würden. Sie nehmen ein 2D-Bild in einem einzigen Belichtungszyklus auf, indem sie mehrere Pixelreihen belichten, entweder mit einem Global Shutter oder einem Rolling Shutter. Eine Zeilenkamera hingegen hat einen Sensor, der nur aus einer Pixelreihe besteht. Letztere muss daher eine Objektzeile pro Zeile abtasten, indem sie entweder die Kamera entlang des Objekts oder das Objekt entlang der Kamera bewegt.

Brauchen Sie also eine Zeilenkamera? Wahrscheinlich nicht. Flächenkameras sind einfach einzurichten, weit verbreitet und führen zu einer unkomplizierten Verarbeitung von Einzelbildern. Im Gegensatz dazu müssen Zeilenkameras sorgfältig mit der Bewegung des Objekts relativ zur Kamera synchronisiert werden. Ein hochauflösender Einzeilensensor kann jedoch mit hohen Frequenzen abtasten und so sehr hochauflösende Bilder erzeugen, wenn dies möglich ist. Eine Zeilenkamera wird üblicherweise in der Fertigung für die Inspektion von Gegenständen auf einem Förderband verwendet.

Wenn Sie nach der Lektüre dieses Artikels noch mehr Fragen haben als vorher, machen Sie sich keine Sorgen. Das Wichtigste ist, dass Sie jetzt besser gerüstet sind, um die wichtigsten Variablen zu erkennen. Die Wahl der richtigen Kameraeinstellung ist komplex, und dieser Artikel hat bewusst viele Konzepte und Details unberührt gelassen (z. B. das Belichtungsdreieck, Beleuchtungstechniken, Multispektralkameras...). Es gibt zahlreiche Online-Ressourcen, in denen Sie zusätzliche Informationen finden können. Wenn Sie Fragen haben, können Sie sich auch gerne an uns von ML6 wenden.

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision