Das Computer Vision Chapter ist die ML6-Expertengruppe für alles, was mit Computer Vision zu tun hat.
Als ML6-Spezialeinheit für Computer Vision ist es unser Ziel, mit den neuesten Entwicklungen auf diesem Gebiet in Kontakt zu bleiben und unsere Erkenntnisse mit Kollegen, Kunden, der Open-Source-Community und der breiten Öffentlichkeit zu teilen. Einige Bereiche, in denen wir derzeit aktiv sind, sind Objekterkennung, Videoanalyse, generative KI, Edge Vision und visuelle Inspektion.
Erkennung von Objekten
Entwickeln Sie benutzerdefinierte, leistungsstarke Modelle für maschinelles Lernen zur Erkennung von Objekten mit hoher Geschwindigkeit, in hoher Auflösung und unter schwierigen realen Bedingungen. Verschiedene Anwendungsfälle erfordern unterschiedliche Ansätze für die Datenvorverarbeitung, Modellierung, Abstimmung und Einrichtung.
Video-Analyse
Verwenden von die Objekt-Tracking über Frames hinweg, um die Objekterkennung und -segmentierung zu unterstützen. Erkennen Sie Phänomene oder Aktivitäten, die nur unter Berücksichtigung des gesamten Bildstroms erkannt werden können. Die Videoanalyse stellt besondere Herausforderungen an die Ressourcenverwaltung und die Modellarchitektur.
Generative KI
Neuronale Netze können Gesichter, Posen, stilistische Attribute übertragen oder ungesehene Instanzen von Gesichtern, Menschen, Objekten oder sogar Kunstwerken auf der Grundlage von Beispielen generieren - wir kratzen nur an der Oberfläche des Potenzials der generativen Modellierung in den Medien, aber auch in Design, Einzelhandel und anderen Bereichen. Weitere Informationen finden Sie unter gener8.ai
Edge Vision
Die kameranahe Videoverarbeitung kann den Netzwerkverkehr reduzieren und die Datensicherheit erhöhen. Zu den Anwendungsbeispielen gehört eine hochleistungsfähige Lösung für die Anonymisierung und Re-Identifizierung am Rande. Die Edge-Verarbeitung birgt eine Reihe von Herausforderungen in Bezug auf Leistung, Architektur, Betrieb und Sicherheit.
Bildverarbeitungsgestützte Qualitätskontrolle und -sicherung, basierend auf den neuesten Fortschritten in der maschinellen Bildverarbeitung. Mit Hilfe des maschinellen Lernens können wir eine breite Palette von Fehlern bei einer Vielzahl von Produkten erkennen. Mit diesen SOTA-Algorithmen können Produktionsprozesse überwacht, gesteuert und optimiert werden.
Wie erkennt man einen Deepfake?
Dieses Video erklärt und veranschaulicht die kleinen Anhaltspunkte, die Ihnen helfen können, Deepfakes von echten Videos zu unterscheiden.
Vollständige Demo anzeigenEin unschlagbarer KI-Roboter für Stein-Papier-Schere
MLSox erklärt : Wie man eine Sockenabgleichsanwendung von Grund auf mit YOLOv4 und siamesischen Netzwerken erstellt
Vollständige Demo anzeigenJeroom tanzt durch Posenübertragung (mit VT4/GoPlay)
Vollständige Demo anzeigenBeschleunigung der digitalen Immobilienmanagement- Plattform von Keypoint durch KI
Beschleunigung der digitalen Immobilienmanagement- Plattform von Keypoint durch KI
Einsatz generativer KI für die Bildmanipulation: Erklärung diskreter absorbierender Diffusionsmodelle
Einsatz generativer KI für die Bildmanipulation: Erklärung diskreter absorbierender Diffusionsmodelle
Aufbau eines Korallensegmentierungsmodells mit spärlichen Daten
Aufbau eines Korallensegmentierungsmodells mit spärlichen Daten
Wie man kleine Objekte in (sehr) großen Bildern erkennt
Wie man kleine Objekte in (sehr) großen Bildern erkennt
Ein erster Eindruck von Google Clouds neuem KI-Tool Visual Inspection
Ein erster Eindruck von Google Clouds neuem KI-Tool Visual Inspection
Im Kontext der Videoanalyse ist die Aktionserkennung die Aufgabe, (menschliche) Aktionen in einem Video zu erkennen [1]. Die Aktionen reichen von extremen Outdoor-Aktivitäten wie Abseilen bis hin zu alltäglichen Tätigkeiten wie Rührei (Abbildung 1). Der Begriff Handlungserkennung wird in der Regel auch für den weiter gefassten Bereich der Ereigniserkennung verwendet, z. B. im Sport. Sie gilt als eine der wichtigsten Aufgaben des Videoverstehens. Es gibt viele reale Anwendungen, darunter Verhaltensanalyse, Videoabfrage, Mensch-Roboter-Interaktion, Spiele und Unterhaltung. Die Handlungserkennung kann weiter in Klassifizierung und Lokalisierung unterteilt werden. Bei der Klassifizierung geht es nur darum, dem gesamten Video ein Etikett zuzuweisen, während die Lokalisierung zusätzlich die räumliche und/oder zeitliche Lokalisierung der Aktionen beinhaltet.
Abbildung 1. Beispiel für Video-Aktionsklassen.
Mit dem Aufkommen großer, qualitativ hochwertiger Datensätze in den letzten zehn Jahren ist das Interesse an der Forschung im Bereich der Video-Handlungserkennung gestiegen. Die Datensätze sind sowohl hinsichtlich der Anzahl der Videos als auch der Anzahl der Klassen gewachsen. Sie stiegen von 7.000 Videos und 51 Klassen in HMDB51 auf 8 Millionen Videos und 3.862 Klassen in YouTube8M. Außerdem werden immer mehr neue Datensätze veröffentlicht: von 3 Datensätzen im Zeitraum 2011-2015 auf 13 Datensätze im Zeitraum 2016-2020. Dank der Verfügbarkeit dieser wachsenden Datensätze und der stetigen Innovation im Bereich des Deep Learning werden die Modelle zur Handlungserkennung rasch verbessert.
Trotz des wachsenden Interesses steht die Video-Handlungserkennung bei der Entwicklung effektiver Algorithmen immer noch vor großen Herausforderungen. Einige dieser Herausforderungen sind im Folgenden zusammengefasst:
Schlüsselwörter: Handlungserkennung, Ereigniserkennung, Sport, Videoanalyse
Obwohl die Erkennung von Ereignissen im Sport auf eine Teilmenge von Aktionen beschränkt ist, stellt sie eine große Herausforderung dar. Ein Sportereignis wird in der Regel nicht nur durch die Aktionen einer einzelnen Person definiert, sondern vielmehr durch eine Kombination der Aktionen mehrerer Personen und ihrer Umgebung. Daher kann es erforderlich sein, die Umgebung und den Standort der Spieler zu modellieren, um ein angemessenes Verständnis des laufenden Sportspiels zu erhalten.
Die Erkennung von Sportereignissen kann das Nutzererlebnis sowohl während als auch nach dem Spiel erheblich verbessern. Während des Spiels können relevante Statistiken auf dem Bildschirm angezeigt werden, ohne dass eine manuelle Dateneingabe erforderlich ist. Nach dem Spiel können automatische Videozusammenfassungen erstellt werden. Außerdem können die gesammelten Statistiken mit früheren Spielen verknüpft werden, um interessante Berichte und Dashboards zu erstellen.
Erforschung und Entwicklung eines Algorithmus für maschinelles Lernen zur Erkennung von Ereignissen wie Tackling, Torversuch oder Sturz in Sportspielen (z. B. Fußball, Feldhockey, Radfahren). Der Algorithmus sollte unter Berücksichtigung von Rechenkosten und Datenknappheit entwickelt werden. Eine mögliche Lösung ist die dateneffiziente Bereichsanpassung durch Transferlernen.
Schlüsselwörter: Aktionserkennung, Ereigniserkennung, Überwachung, Videoanalyse, Rand
Die Übertragung von Videofeeds an ein zentrales Rechenzentrum, um dort verarbeitet zu werden, ist sowohl teuer als auch mit hohen Investitionen in die Infrastruktur verbunden, insbesondere bei Anwendungsfällen, in denen eine große Anzahl von Kameras benötigt wird. Außerdem birgt die Übertragung von Videos, die sensible Daten enthalten, über das Netz Sicherheitsrisiken. Gleichzeitig kommen immer leistungsfähigere und leichtere Edge-Processing-Geräte mit GPUs und TPUs auf den Markt. Daher besteht ein wachsendes Interesse an der Videoverarbeitung am Rande des Netzes, während nur Statistiken und/oder Darstellungen zentral übertragen und verarbeitet werden. Dies verringert die Anforderungen an die Infrastruktur und verbessert die Sicherheit, da die Bilder den Kamerastandort nicht verlassen müssen. Zu den wichtigsten Anwendungsfällen in diesem Zusammenhang gehören die Überwachung des Verkehrs, der Umwelt und andere Arten der Überwachung.
Erforschung und Entwicklung eines optimierten Algorithmus zur Erkennung von Aktionen für Edge-Geräte wie NVIDIA Jetson Xavier, der in einem Überwachungskontext eingesetzt werden kann. Der spezielle Anwendungsfall ist offen und könnte sich auf Verkehr, Tiere, Menschen oder andere Phänomene beziehen, einschließlich des oben genannten Sportfalls. Ein wichtiger Schwerpunkt wird der Vergleich, die Auswahl und die Optimierung verschiedener maschineller Lernmodelle für den Einsatz im Edge-Bereich sein. Zu den Techniken, die zur Optimierung eingesetzt werden können, gehören Quantisierung, Pruning und Wissensdestillation.
Im Kontext von Videos besteht das Ziel der Anomalieerkennung darin, anomale Ereignisse in Videos zeitlich oder räumlich zu lokalisieren [2]. Anomale Ereignisse sind definiert als Ereignisse oder Aktivitäten, die ungewöhnlich sind und auf ein unregelmäßiges Verhalten hindeuten (Abbildung 3). Die zeitliche Lokalisierung beinhaltet die Identifizierung der Start- und Endbilder des anomalen Ereignisses. Räumliche Lokalisierung bedeutet, dass die Anomalie in jedem entsprechenden Bild räumlich identifiziert wird. Die Erkennung von Videoanomalien findet in der Überwachungsbranche breite Anwendung, z. B. bei der Erkennung von illegalen Aktivitäten, Verkehrsunfällen und ungewöhnlichen Ereignissen. Sie erhöht nicht nur die Überwachungseffizienz, sondern verringert auch den Aufwand für die manuelle Live-Überwachung erheblich, da sich der Mensch auf die Ereignisse konzentrieren kann, die wahrscheinlich von Interesse sind.
Abbildung 3. Beispielhafte anomale Ereignisse aus vier Datensätzen.
Die Forschung im Bereich der Erkennung von Videoanomalien nimmt aufgrund der zunehmenden Verwendung von Kameras an öffentlichen Orten zu. Kameras werden auf Plätzen, Straßen, Kreuzungen, Banken, Einkaufszentren usw. aufgestellt, um die öffentliche Sicherheit zu erhöhen. Die Fähigkeiten der Überwachungsbehörden haben jedoch nicht Schritt gehalten. Es gibt einen eklatanten Mangel bei der Nutzung von Überwachungskameras, der auf ein unausgewogenes Verhältnis zwischen Kameras und menschlichen Kontrolleuren zurückzuführen ist.
Die Erkennung von Videoanomalien steckt noch in den Kinderschuhen und steht vor großen Herausforderungen bei der effektiven Einführung. Diese Herausforderungen werden im Folgenden zusammengefasst:
Stichworte: Anomalieerkennung, Ereigniserkennung, Kriminalität, Gewalt, intelligente Videoüberwachung
Die Erkennung von Gewalt und schädlichen Mustern ist zu einem aktiven Forschungsbereich geworden, da Überwachungskameras in Hülle und Fülle vorhanden sind und schnell auf Vorfälle reagiert werden muss, um eine weitere Eskalation zu verhindern. Unter allen anomalen Ereignissen ist Gewalt eine der größten Herausforderungen bei der Erkennung. Sie kann zu jedem Zeitpunkt und in jeder Umgebung auftreten, und es gibt kein festes Szenario. Eine rechtzeitige Reaktion auf Gewaltereignisse kann die öffentliche Sicherheit erheblich erhöhen. Darüber hinaus können Vorfallsberichte und automatisierte Statistiken helfen, künftige Vorfälle zu verhindern.
Erforschung und Entwicklung eines Algorithmus für maschinelles Lernen zur Erkennung von Gewalttaten in Überwachungsbildern. Der Algorithmus sollte mit Blick auf die Rechenkosten und die Datenknappheit entwickelt werden. Filmmaterial von Kämpfen aus anderen Bereichen, z. B. Eishockey, kann zur Erstellung eines Datensatzes verwendet werden.
Schlüsselwörter: Anomalieerkennung, Ereigniserkennung, Überwachung, Videoanalyse, Rand
Die Übertragung von Videofeeds an ein zentrales Rechenzentrum, um dort verarbeitet zu werden, ist sowohl teuer als auch mit hohen Investitionen in die Infrastruktur verbunden, insbesondere bei Anwendungsfällen, in denen eine große Anzahl von Kameras benötigt wird. Außerdem birgt die Übertragung von Videos, die sensible Daten enthalten, über das Netz Sicherheitsrisiken. Gleichzeitig kommen immer leistungsfähigere und leichtere Edge-Processing-Geräte mit GPUs und TPUs auf den Markt. Daher besteht ein wachsendes Interesse an der Videoverarbeitung am Rande des Netzes, während nur Statistiken und/oder Darstellungen zentral übertragen und verarbeitet werden. Dies verringert die Anforderungen an die Infrastruktur und verbessert die Sicherheit, da die Bilder den Kamerastandort nicht verlassen müssen. Zu den wichtigsten Anwendungsfällen in diesem Zusammenhang gehören die Überwachung des Verkehrs, der Umwelt und andere Arten der Überwachung.
Erforschung und Erstellung eines optimierten Algorithmus zur Erkennung von Videoanomalien für Edge-Geräte wie NVIDIA Jetson Xavier, der in einem Überwachungskontext eingesetzt werden kann. Der spezielle Anwendungsfall ist offen und könnte sich auf Verkehr, Tiere, Menschen oder andere Phänomene beziehen. Ein wichtiger Schwerpunkt wird der Vergleich, die Auswahl und die Optimierung verschiedener maschineller Lernmodelle für den Einsatz in Edge-Geräten sein. Zu den Techniken, die zur Optimierung eingesetzt werden können, gehören Quantisierung, Pruning und Wissensdestillation.
In industriellen Fertigungsprozessen ist die Qualitätssicherung ein wichtiges Thema. Nicht umsonst ist sie eine der Top-Prioritäten für Industrie 4.0. Die Fehlererkennung verbessert die Qualität, die Effizienz und spart viel Geld. Sie ist im Begriff, leichter zugänglich zu werden, doch dieses Problem steht vor einer Reihe einzigartiger Herausforderungen:
Für diesen Anwendungsfall möchten wir Methoden zur Erkennung von Anomalien erforschen, die anomaliefreie Trainingsdaten in Kombination mit probabilistischer KI zur Erkennung von Anomalien verwenden. Das Ziel ist, dass ein neuer Kunde uns lediglich einen Datensatz mit nicht defekten Proben zur Verfügung stellen muss und wir eine maßgeschneiderte Lösung zur Erkennung von Anomalien für seinen Anwendungsfall entwickeln können. Kürzlich hat Intel die Anomalib-Bibliothek veröffentlicht, die einige der derzeit modernsten Methoden implementiert. ML6 hat die Bibliothek bereits erforscht, aber es gibt noch viel zu tun, bevor wir sie für einen Kunden einsetzen können.
Sie können sich einen Vorsprung verschaffen, wenn Sie an diesem Projekt arbeiten, da bereits einige Arbeiten durchgeführt wurden. Es gibt eine aktiv entwickelte Bibliothek namens Anomalib, die Implementierungen des aktuellen Stands der Technik enthält. Es gibt jedoch noch eine Lücke zu schließen, bevor wir sie in der Praxis verwenden können. Ein erster Vergleich von drei Algorithmen wurde durchgeführt, wobei jedoch mehrere interessante Algorithmen ausgeschlossen wurden.
Während dieses Praktikums werden Sie:
Die Dauer des Praktikums kann flexibel gestaltet werden und hängt von den Präferenzen des Bewerbers und den Anforderungen des Projekts ab. Die übliche Dauer beträgt 6 bis 8 Wochen. Die bevorzugte Dauer für dieses spezielle Projekt ist 6 Wochen.
SMOG (NL: Spreken Met ondersteuning van Gebaren, EN: Sprechen mit Gebärdenunterstützung) ist eine Form der unterstützenden Kommunikation. Sie ermöglicht es Kindern, Jugendlichen und Erwachsenen mit einer Kommunikationsbehinderung, ihre Bedürfnisse und Wünsche zu verdeutlichen und ihre Umwelt besser zu verstehen. Leider verstehen die meisten Menschen SMOG nicht oder wissen es nicht einmal. Mit dieser Arbeit soll diese Lücke geschlossen werden, indem die Gebärden mit Hilfe von Technologie einem breiteren Publikum verständlich gemacht werden.
Das Ziel dieser Arbeit ist die Erkennung von SMOG-Gebärden mit einem Google Glas. Das Wort, das der Gebärde entspricht, muss dem Benutzer angezeigt werden. Das Modell muss in der Lage sein, (fast) in Echtzeit zu arbeiten.
Ein maschinelles Lernmodell sollte die Kameraaufnahmen der Google Glass verarbeiten, um (eine Teilmenge) der 500 SMOG-Basisgesten zu erkennen. Optional kann der Nutzer die Bedienelemente der Glass verwenden, um den Beginn und das Ende einer Geste anzugeben. Ein Modell muss dann in der Lage sein, die Geste zu klassifizieren und dem Nutzer das entsprechende Wort auf dem Display der Glass anzuzeigen.
Die Anwendungen für Google Glass (Enterprise Edition 2) basieren auf dem Android Orea 8.1 SDK. MLKi und MediaPip können für maschinelles Lernen verwendet werden. Das ML-Modell muss in TensorFlow entwickelt werden. Android- und/oder TensorFlow-Erfahrung ist ein Plus. Die Arbeit enthält sowohl einen theoretischen als auch einen praktischen Aspekt. Neben der Entwicklung einer Android-App ist auch die Erforschung optimaler, leichtgewichtiger Modellarchitekturen erforderlich.
Erinnern Sie sich an die typische Szene in einer Krimiserie, in der ein unscharfes Bild eines Verdächtigen gezeigt wird und der Technikexperte gebeten wird, "heranzuzoomen und zu verbessern"?
Obwohl diese Szenen technisch nirgends genau sind, gibt es einige Techniken, die Bilder mit niedriger Auflösung als Input nehmen und sie auf eine höhere Auflösung hochskalieren. Die Super-Resolution ist eine davon. Lange Zeit galt diese Idee als Science-Fiction, da das "Theorem der Ungleichheit in der Datenverarbeitung" besagt, dass die Nachbearbeitung von Daten keine Informationen hinzufügen kann, die nicht bereits vorhanden sind. Mit dem Aufkommen neuronaler Netze und GANs können jedoch Informationen hinzugefügt werden, die durch das Training dieser Netze an großen Mengen von Beispielen gelernt wurden, so dass beispielsweise Gesichter tatsächlich rekonstruiert werden können.
Die Super-Resolution hat viele interessante reale Anwendungen, die gerade erst erforscht werden, wie z. B. die Verringerung der Dateigrößen von Bildern und Videos, als Vorverarbeitungsschritt für verschiedene KI-Anwendungen wie z. B. Deepfakes und als Nachverarbeitungsschritt in verschiedenen Branchen wie z. B. in der Medizin, der Kosmologie oder einfach zur Verbesserung Ihrer alten Lieblingsfilme und -bilder.
Abbildung 1. Beispiel für die Hochskalierung eines unscharfen Bildes.
Obwohl die Idee nicht neu ist, hat der Bereich der Superauflösung mit dem Aufkommen der GANs einen neuen Aufschwung genommen und in nur wenigen Jahren erhebliche Verbesserungen erfahren. Ein großer Vorteil dieses Fachgebiets ist außerdem, dass eine unbegrenzte Menge an Daten zur Verfügung steht, da man hochauflösende Bilder leicht herunterskalieren und diese Paare als Trainingsdaten verwenden kann. Es gibt auch viele öffentlich zugängliche Datensätze wie z. B. https://data.vision.ee.ethz.ch/cvl/DIV2K/.
Trotz des wachsenden Interesses steht die Superauflösung immer noch vor großen Herausforderungen bei der Entwicklung effektiver Algorithmen. Diese Herausforderungen werden im Folgenden zusammengefasst:
Eine kürzlich veröffentlichte Arbeit mit dem Namen DFDNet [1] hat den Stand der Technik bei der Hochskalierung von menschlichen Gesichtern erreicht. Allerdings können damit nur die Gesichter selbst hochskaliert werden, die Umgebung bleibt jedoch unverändert. In dieser Arbeit soll die Möglichkeit untersucht werden, auch den Hintergrund hochzuskalieren, entweder als separates Netzwerk oder integriert in die DFDNet-Architektur. Dies würde die Tür für die Video-Hochskalierung öffnen, da es jetzt deutlich sichtbare Artefakte gibt, wenn nur das Gesicht einer Person hochskaliert wird, während der Hintergrund unscharf bleibt.
Erforschen und erstellen Sie einen Algorithmus für maschinelles Lernen, der die Auflösung eines Bildes hochskalieren und die Details realistisch ausfüllen kann. Technologien, die verwendet werden können, sind Python, Tensorflow, Keras und im Allgemeinen die Python-Datenwissenschaft und maschinelles Lernen.
Wollten Sie schon immer wissen, wie das alte Fotoalbum Ihrer Familie in Farbe aussehen würde? Sind Sie daran interessiert, die Vergangenheit lebendiger werden zu lassen? Dann könnte dies ein Thema für Sie sein.
Bei der Einfärbung von Bildern wird versucht, ein Graustufenbild in ein farbiges Bild umzuwandeln und dabei die Farben so realistisch wie möglich einzufärben. Die Idee ist nicht neu: Seit Jahrzehnten werden Fotos von Hand eingefärbt, und in den frühen 2000er Jahren kamen auch einige computergestützte, referenzbasierte Techniken auf. In den letzten 5 Jahren gab es jedoch enorme Fortschritte durch den Einsatz verschiedener Deep-Learning-Architekturen, die von den frühen Brute-Force-Netzwerken [3] bis hin zu neueren, speziell entwickelten Generative Adversarial Networks [4] reichen.
Abbildung 2. Beispiel einer Bildeinfärbung.
Trotz des wachsenden Interesses steht die Bildeinfärbung immer noch vor großen Herausforderungen bei der Entwicklung effektiver Algorithmen. Diese Herausforderungen werden im Folgenden zusammengefasst:
Abbildung 3. Vergleich zwischen Farbbild und Graubild. [5]
Was wäre, wenn diese Einfärbetechniken auch auf Videos angewendet werden könnten? Die Forschung im Bereich der Bildeinfärbung hat sich fast ausschließlich auf Bilder konzentriert, und derzeit ist die Videokolorierung meist nur die Anwendung der Bildeinfärbung auf die einzelnen Frames des Videos. Es gibt viele Möglichkeiten, den Stand der Technik bei der Einfärbung von Videos zu verbessern, z. B. durch die Berücksichtigung der zeitlichen Komponente bei der Einfärbung von Einzelbildern oder durch den Versuch, einige der Probleme zu lösen, die spezifisch für alte Videos sind, wie z. B. die Abschwächung des Flimmereffekts.
Erforschung und Erstellung eines Algorithmus für maschinelles Lernen, der Videos realistisch einfärben kann, indem er den derzeitigen Stand der Technik der Einfärbung von Einzelbildern durch die Berücksichtigung zeitlicher Komponenten verbessert. Technologien, die verwendet werden können, sind Python, Tensorflow, Keras und allgemein der Python Data Science und Machine Learning Track.
Haben Sie sich jemals gefragt, wie Sie in einem bestimmten T-Shirt oder einem Paar Schuhe aussehen würden, ohne es anprobieren zu müssen? Nun, das ist das Problem, das die Kleidungsübertragung zu lösen versucht. Anhand eines Bildes einer Person und eines Kleidungsstücks wird versucht, ein fotorealistisches Bild dieser Person in diesem Kleidungsstück zu erstellen.
Die Übertragung von Kleidungsstücken war lange Zeit Science-Fiction, wurde aber erst vor kurzem mit dem Aufkommen von GANs lösbar. Seitdem hat es sich bereits zu einem beliebten Unterthema für die Forschung entwickelt und große Fortschritte gemacht, wie in der Abbildung unten zu sehen ist.
Abbildung 4. Beispiel für die Übertragung von Kleidungsstücken. [7]
Bei der Übertragung von Kleidungsstücken gibt es eine Vielzahl von Varianten mit leicht unterschiedlichen Eingaben (z. B. ein einzelnes Bild der zu übertragenden Kleidung, eine Sammlung von Bildern oder ein Bild einer anderen Person, die die zu übertragende Kleidung trägt), aber im Allgemeinen kann das Problem in zwei Teilprobleme unterteilt werden. Erstens sollte der Algorithmus lernen, den Körper einer Person (Pose, Form, Hautfarbe) von ihrer Kleidung zu trennen. Zweitens soll er neue Bilder der Person mit einem neuen Kleidungsstück erzeugen. Die Ergebnisse sind ebenfalls unterschiedlich und reichen von der Generierung eines einzelnen Bildes bis hin zur Generierung eines vollständigen 3D-Kleidertransfers [8], bei dem Bilder von verschiedenen Standpunkten und Posen generiert werden können.
Obwohl das Interesse daran wächst, steht die Übertragung von Kleidungsstücken bei der Entwicklung wirksamer Algorithmen noch immer vor großen Herausforderungen. Diese Herausforderungen werden im Folgenden zusammengefasst:
Da die Forschung auf dem Gebiet des Kleidungsstücktransfers noch in den Kinderschuhen steckt und es keinen Konsens darüber gibt, wie das Problem anzugehen ist, kann es schwierig sein, den Wald vor lauter Bäumen zu sehen. Eine Zusammenfassung und Organisation der verschiedenen Ansätze und ihrer Fortschritte zusammen mit einer Analyse und einem Vergleich ihrer Vor- und Nachteile kann einen großen Mehrwert für das Feld darstellen. Dadurch wird die Schwelle für neue Forscher zum Einstieg in das Gebiet gesenkt und den derzeitigen Forschern geholfen, Verbindungen zwischen den aktuellen Ansätzen herzustellen.
Recherchieren, analysieren und fassen Sie den aktuellen Stand der Technik im Bereich der Kleidungsübertragungstechniken zusammen.
Bei einem gut trainierten GAN ist der Generatorteil des Netzes in der Lage, neue, fotorealistische Beispiele für die Art von Bildern zu erzeugen, auf die das Netz trainiert wurde. Es ist jedoch schwer zu kontrollieren, welche Art von Bild das GAN generieren soll, außer einem Zufallsbild, das aus der gleichen Verteilung wie der Trainingssatz stammt.
Nehmen wir zum Beispiel die StyleGAN-Architektur von NVIDIA [9], die hinter der bekannten Website thispersondoesnotexist.com steht, die fotorealistische Gesichter von Menschen erzeugt, die nicht existieren.
Abbildung 5. Beispiele von thispersondoesnotexist.com.
Einmal trainiert, ist es einfach, StyleGAN aufzufordern, ein neues, realistisch aussehendes Gesicht zu generieren. Es gibt jedoch keine Möglichkeit, StyleGAN aufzufordern, zum Beispiel ein Bild eines asiatischen Mannes mittleren Alters mit langen Haaren zu generieren, außer man generiert so lange Bilder, bis man ein Gesicht mit den gewünschten Eigenschaften erhält.
Dieses Problem schränkt die Verwendbarkeit von GANs in realen Anwendungen erheblich ein.
Es gibt bereits verschiedene Ansätze zur Lösung dieses Problems, wobei die bekanntesten die bedingten GANs und die kontrollierbare Erzeugung sind. Bedingte GANs sind GANs, die während der Trainingsphase einen zusätzlichen Input erhalten, nämlich die Bezeichnung der Klasse, zu der das Bild gehört. Die kontrollierbare Generierung erfolgt nach dem Training und besteht in der Anpassung des latenten Merkmalsvektors in dem Versuch, die Merkmale des Ausgangsbildes zu kontrollieren.
Trotz des wachsenden Interesses stehen konditionale GANs noch immer vor großen Herausforderungen bei der Entwicklung effektiver Algorithmen. Diese Herausforderungen werden im Folgenden zusammengefasst:
Bei der kontrollierbaren Generierung versuchen Sie, den latenten Merkmalsvektor des Generators so zu verändern, dass sich die Ausgabe in die gewünschte Richtung ändert. Wenn jedoch verschiedene Merkmale in dem Datensatz, der zum Trainieren Ihres GAN verwendet wurde, eine hohe Korrelation aufweisen, wird es schwierig, bestimmte Merkmale zu steuern, ohne die mit ihnen korrelierenden Merkmale zu ändern. Wenn Sie z. B. dem Bild einer Frau einen Bart hinzufügen möchten, wird dies wahrscheinlich auch andere Gesichtsmerkmale wie die Nase und die Kieferlinie so verändern, dass das Gesicht männlicher wirkt. Dies ist nicht wünschenswert, wenn Sie nur ein einziges Merkmal bearbeiten möchten. Darüber hinaus gilt dies auch für Merkmale, die in der Trainingsmenge nicht korreliert sind, da der Z-Raum ohne besondere Aufmerksamkeit gelernt wird, sich zu verwickeln.
Erforschung und Schaffung eines GAN, das in einem bestimmten Teilbereich wie der medizinischen Bildgebung über einen unentwirrten Z-Raum verfügt. Ziel ist es, einzelne, relevante Merkmale medizinischer Bilder, wie zum Beispiel die Größe eines Tumors, beeinflussen zu können. Technologien, die verwendet werden können, sind Python, Tensorflow, Keras und im Allgemeinen der Python Data Science und Machine Learning Track.