Juli 13, 2021

Jenseits von Bildern: Die neue Grenze der Videoanalyse

Mitwirkende
Jules Talloen
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Mit der zunehmenden Anzahl von Kameras und der Fülle an Videomaterial entsteht eine neue Dimension der Videoanalyse. Durch die Nutzung der zeitlichen Dimension ermöglichen Videoanalysemodelle eine Vielzahl von Anwendungsfällen, von der Verbraucheranalyse im Einzelhandel bis hin zur Echtzeit-Sportüberwachung.

Bei ML6 haben wir ein zunehmendes Interesse an der zeitbasierten Videoanalyse festgestellt. Seit Jahren wird ML auf Videos angewandt, bleibt aber in der Regel auf bildbasierte Techniken beschränkt. Die Verwendung von bildbasierten Modellen schöpft das wahre Potenzial der Videoanalyse nicht aus. Die Grenzen dessen, was mit bildbasierten Methoden möglich ist, werden jedoch immer deutlicher. Die Lösung, die die zeitliche Dimension mit einbezieht, enthüllt neue Informationen und öffnet die Türen zu einer ganzen Reihe von neuen Möglichkeiten.

Nehmen Sie zum Beispiel das folgende Bild und Video. Das Bild auf der linken Seite zeigt scheinbar zwei Personen, die versuchen, ihr kaputtes Auto zu reparieren. Auf der Grundlage eines einzigen Bildes ist es unmöglich festzustellen, ob sie das Auto wirklich reparieren oder versuchen, es zu stehlen. Erst wenn man den gesamten Kontext berücksichtigt, sieht man, dass die beiden Personen in einem anderen Auto ankommen, die Motorhaube gewaltsam öffnen und schnell wegfahren, während sie sich nervös umschauen.

Ein Beispiel für ein Diebstahlvideo aus dem UCF Crime-Datensatz. Quelle: https://www.crcv.ucf.edu/projects/real-world/


Ein Beispiel für ein Diebstahlvideo aus dem UCF Crime-Datensatz. Quelle: https://www.crcv.ucf.edu/projects/real-world/

Dieser Blogpost gibt einen Überblick über die wichtigsten Forschungsbereiche der Videoanalyse. Für jedes der folgenden Teilgebiete stellen wir einige der wichtigsten Anwendungsfälle vor:

  • Verfolgung und Re-Identifizierung
  • Videoerkennung
  • Erkennung von Videoanomalien
  • Videozusammenfassung und -beschreibung

Verfolgung und Re-Identifizierung

Tracking ist eine der grundlegendsten Techniken im Bereich der Videoanalyse. Im Falle eines Einzelbildes ist jedes Objekt einzigartig und bekannt. Sobald wir die zeitliche Dimension hinzufügen, haben wir mehrere Bilder oder Frames desselben einzigartigen Objekts. Das Ziel der Verfolgung ist es, diese Sichtungen desselben Objekts miteinander zu verknüpfen, um eine Spur durch die Zeit zu bilden. Je nach Anzahl der Objekte und Blickwinkel gibt es verschiedene Arten der Verfolgung. Diese werden im Folgenden erörtert.

Ein Überblick über die Teilbereiche des Tracking.

Einzelobjektverfolgung (SOT)

Bei der Einzelobjektverfolgung (Single Object Tracking, SOT), die auch als visuelle Objektverfolgung (Visual Object Tracking, VOT) bezeichnet wird, wird ein einzelnes Objekt in einem Video verfolgt. Dem Tracker wird ein Begrenzungsrahmen des Zielobjekts im ersten Bild vorgegeben. Der Tracker verfolgt dann dieses Objekt in den folgenden Bildern. Nach der Vorgabe des ersten Begrenzungsrahmens sind keine weiteren Objekterkennungen erforderlich. Diese Art von Trackern wird als detektionsfrei bezeichnet: Sie sind nicht auf einen Detektor angewiesen. Infolgedessen kann jede Art von Objekt verfolgt werden, da keine Abhängigkeit von einem Objektdetektor mit einem festen Satz von Klassen besteht.

Ein einzelnes Objekt bewegt sich durch alle Videobilder.

Ein Beispiel für SOT. Eine einzelne Dose Koks wird verfolgt. Quelle: https://cv.gluon.ai/build/examples_tracking/demo_SiamRPN.html

Beispielhafte Anwendungsfälle

  • Tierüberwachung: Verfolgen Sie ein beliebiges Tier, ohne dass Sie einen eigenen Objektdetektor trainieren müssen.
  • Robotik: Verfolgen Sie das Objekt, das gerade von Roboterarmen gehandhabt wird.

Multi-Objekt-Verfolgung (MOT)

Wie der Name schon sagt, sind beim Multi-Objekt-Tracking (MOT) mehrere Objekte zu verfolgen. Ein MOT-Tracker basiert auf der Erkennung von Objekten, er benötigt Objekterkennungen als Eingabe und gibt einen Satz neuer Bounding Boxes mit entsprechenden Track-Identifikatoren aus. MOT-Tracker assoziieren typischerweise Erkennungen auf der Grundlage von Bewegung und visuellem Erscheinungsbild. Sie sind auf eine feste Anzahl von Klassen beschränkt, da sie sowohl vom zugrunde liegenden Tracker als auch vom visuellen Erscheinungsbildmodell abhängig sind. Ein Modell, das für die Erkennung ähnlicher Personen trainiert wurde, wird beispielsweise bei Fahrzeugen nicht gut abschneiden, da es gelernt hat, nach Unterscheidungsmerkmalen von Personen zu suchen.

Drei verschiedene Objekte, die sich durch die Videobilder bewegen.
Ein Beispiel für den TÜV für Fahrzeuge. Jedem Fahrzeug wird eine eindeutige ID zugewiesen. Die Felder des Detektors und des Trackers sind blau bzw. rot.

Beispielhafte Anwendungsfälle

  • Personen-/Fahrzeugzählung: Zählen Sie die Anzahl der einzelnen Personen/Fahrzeuge, die ein bestimmtes Gebiet passieren.
  • Einzelhandelsanalysen im Geschäft: Verfolgen Sie Kunden im Geschäft und analysieren Sie Verhaltensmuster, um das Ladenlayout zu optimieren.
  • Verwaltung von Menschenmengen: Analyse der Bewegungen und Muster von Menschenmengen.
  • Verkehrsüberwachung: Überwachung der Verkehrsmuster.
  • Übertragung von Sportanalysen: Verfolgen Sie Spieler und analysieren Sie ihre Bewegungen.

Multi-Target-Multi-Kamera-Tracking (MTMCT)

Das Multi-Target-Multi-Kamera-Tracking fügt dem MOT eine weitere Komplexitätsebene hinzu und führt mehrere Kameras oder Blickwinkel ein. Der Tracker hat nun eine Vorstellung von der Tiefe und ist in der Lage, genauere Spuren auszugeben. Leider geht dies in der Regel auf Kosten der Rechenkomplexität aufgrund der zusätzlich zu verarbeitenden Informationen. Zu jedem Zeitpunkt empfängt der MTMCT-Tracker ein Bild von jedem Blickpunkt.

Zwei Standpunkte desselben Objekts, das sich durch die Videobilder bewegt.
Vier Ansichten desselben Gebiets mit MTMCT-Anmerkungen. Quelle: https://www.youtube.com/watch?v=dliRQ9zOFPU

Beispielhafte Anwendungsfälle

  • Sportanalytik: genaue Spieler- und Ballverfolgung bei Ballsportarten.

Re-Identifizierung (ReID)

Die Re-Identifizierung ist ein Teilbereich der MTMCT, sie betrifft mehrere Objekte und Gesichtspunkte, aber die zeitliche Beziehung zwischen den Erkennungen ist unterschiedlich. Bei MTMCT erhält der Tracker zu jedem Zeitpunkt von jedem Standpunkt eine Reihe von Erkennungen zu diesem Zeitpunkt. Im Gegensatz dazu wird ReID in der Regel mit Erkennungen von mehreren Blickpunkten zu mehreren Zeitpunkten durchgeführt. Ein weiterer Unterschied zu MTMCT besteht darin, dass ReID-Kameras nicht auf denselben Bereich gerichtet sein müssen. Im Allgemeinen sind die ReID-Sichtpunkte über ein größeres Gebiet verstreut.

Die meisten Anwendungsfälle beinhalten zunächst die Verfolgung von Personen an den einzelnen Aussichtspunkten. Auf der Grundlage der eindeutigen Personen pro Blickpunkt wird eine Galerie aller Personen erstellt, die von verschiedenen Blickpunkten aus gesehen wurden. Anhand eines Bildes einer abgefragten Person versucht ReID dann, die Erkennungen dieser Person von anderen Aussichtspunkten in der Galerie abzurufen. ReID übernimmt also dort, wo MOT aufhört, und verfolgt die Spur über die Blickpunkte hinweg.

Drei Bilder aus drei verschiedenen Blickwinkeln zu drei verschiedenen Zeitpunkten, die dasselbe Objekt enthalten.


Eine schematische Darstellung der Re-Identifizierung. Es wird eine Galerie mit Personen erstellt, die in jedem Blickwinkel erkannt (und verfolgt) wurden. Die Galerie wird dann mit einem Bild abgefragt, um die Erkennungen derselben Person von anderen Standpunkten aus abzurufen.

Beispielhafte Anwendungsfälle

  • Personen-/Fahrzeugsuche: Suche nach einer Zielperson oder einem Zielfahrzeug in einem gesamten Kameranetz über verschiedene Blickwinkel hinweg.
  • Kameraübergreifende Trajektorienschätzung: Schätzung der Trajektorie einer Entität über mehrere Kamerastandpunkte hinweg.
  • Erkennung wiederkehrender Besucher: Erkennen Sie wiederkehrende Besucher anhand ihres Aussehens.

End-to-End-Multitasking

Neben videobasierten Techniken können auch Bildaufgaben stark von zeitlichen Informationen profitieren. Verschiedene bildbasierte Verfahren sind um die zeitliche Dimension erweitert worden. Anstatt naiv Informationen pro Bild auszugeben, verfolgen die Modelle Objekte über die Zeit und verwenden die Ergebnisse des vorherigen Bildes, um die nächste Vorhersage zu verbessern. Beispiele hierfür sind die Segmentierung von Objekten und die Schätzung der Körperhaltung.

Multi-Task-Tracking: Zusätzlich zu den Pose-Keypoints/Segmentierungsmasken wird jede Person verfolgt und mit einer eigenen Farbe versehen.

Videoerkennung

Videoerkennung ist die Fähigkeit, Entitäten oder Ereignisse in Videos zu erkennen. Ähnlich wie bei der Bilderkennung gibt es mehrere Arten der "Erkennung", die vom Informationsgehalt der ausgegebenen Informationen abhängen. Ein Modell kann klassifizieren, lokalisieren oder beides tun. Die verschiedenen Arten der Erkennung werden im Folgenden erläutert.

Ein Überblick über die Teilbereiche der Videoerkennung.

Klassifizierung

Eine der grundlegendsten Techniken ist die Videoklassifizierung, bei der einem gesamten Videoclip eine relevante Bezeichnung zugewiesen wird. Es gibt keine räumliche oder zeitliche Lokalisierung, also keine Begrenzungsrahmen oder Zeitstempel. Infolgedessen sind die Videoclips in der Regel nur wenige Sekunden lang.

Ein Video, das aus n Bildern besteht, wird als "Klasse A" eingestuft.
Beispielclips eines Datensatzes zur Handlungserkennung (THUMOS14). Zu den Klassen gehören Boxen, Trommeln, Stricken... Quelle: http://crcv.ucf.edu/THUMOS14/home.html

Beispielhafte Anwendungsfälle

  • Inhaltskontrolle: Klassifizierung unangemessener Videos, die z. B. Nacktheit oder Gewalt enthalten.
  • Automatische Videokategorisierung: Automatische Einteilung von Videomaterial in eine festgelegte Anzahl von Kategorien.

Zeitliche Lokalisierung

Bei der zeitlichen Lokalisierung werden relevante Aktionen oder Entitäten sowohl klassifiziert als auch zeitlich lokalisiert. Sie wird auch als Erkennung auf Bildebene bezeichnet. In einem einzigen Video können mehrere Ereignisse oder Objekte mit ihren entsprechenden Start- und Endzeiten erkannt werden. Die zeitliche Lokalisierung ist im Vergleich zur Klassifizierung eine größere Herausforderung, da das Modell vorhersagen muss, wann eine Aktion oder ein Objekt beginnt und endet.

Eine Gruppe von Bildern eines Videos wird als "Klasse A" eingestuft.

Beispielhafte Anwendungsfälle

  • Automatischer Videozuschnitt: Schneiden Sie interessante Teile eines Videos zu.
  • Inhaltssuche: Finden Sie ein bestimmtes Ereignis in stundenlangem Videomaterial.
  • Automatische Clipextraktion: extrahiert automatisch interessante Clips aus einem längeren Video.
  • Ereigniszählung: Zählen des Auftretens von bestimmten Ereignissen.

Erkennung

Die Erkennung von Aktionen oder Objekten klassifiziert und lokalisiert relevante Aktionen oder Objekte sowohl zeitlich als auch räumlich. Die Erkennung von Objekten ähnelt der Verfolgung mehrerer Objekte, ein Objekt wird erkannt und über mehrere Bilder hinweg zugeordnet. Bei der Aktionserkennung werden jedoch Aktionen erkannt, die in der Regel nur in der Zeit existieren. Die Erkennung von Aktionen/Entitäten wird als Erkennung auf Pixelebene klassifiziert.

Eine Gruppe von Einzelbildern aus einem Video enthält eine Aktion oder Entität der "Klasse A", wie durch die Begrenzungsrahmen angezeigt.

Das Ergebnis des SlowFast-Aktionserkennungsmodells von Facebook Research. Quelle: https://github.com/facebookresearch/SlowFast

Beispielhafte Anwendungsfälle

  • Automatisches Zuschneiden/Zoomen von Videos: Automatisches Zuschneiden/Zoomen eines Videos, um nur ein bestimmtes Objekt oder Ereignis zu zeigen.
  • Überwachung der Sicherheit am Arbeitsplatz: Erkennung unsicherer Ereignisse zur Verringerung von Arbeitsunfällen, z. B. durch Erkennung fehlender Schutzausrüstung.

Erkennung von Videoanomalien

Was ist, wenn wir Ereignisse erkennen wollen, die vom normalen Verhalten abweichen, wir aber nicht über einen Datensatz mit allen derartigen Ereignissen verfügen? Was, wenn Sie nicht wirklich daran interessiert sind, welche Art von Ereignis auftritt, sondern nur, dass es auftritt? Hier kommt die Anomalieerkennung ins Spiel!

Die Erkennung von Videoanomalien zielt darauf ab, anomale Ereignisse oder Aktionen in Videos zu erkennen und zeitlich zu lokalisieren. Anomale Ereignisse sind definiert als Ereignisse, die auf irreguläres Verhalten hinweisen. Sie reichen vom Gehen in die falsche Richtung bis hin zu Gewaltverbrechen. Modelle zur Erkennung von Anomalien geben im Allgemeinen einen Wert aus, der die Wahrscheinlichkeit einer Anomalie zu jedem Zeitpunkt angibt. Folglich gibt es keine Klassifizierung eines bestimmten Ereignistyps.

Ein Video mit Einzelbildern, die verschiedene Stufen von anomalen Ereignissen enthalten, wie durch die Anomaliebewertung angezeigt.

Ein Beispielclip eines anomalen Ereignisses (Raubüberfall) und die entsprechende Anomaliebewertung für jedes Bild. Der rote Bereich zeigt die Grundwahrheit an. Quelle: https://www.youtube.com/watch?v=8TKkPePFpiE

Beispielhafte Anwendungsfälle

  • Intelligente CCTV-Überwachung: Benachrichtigung der Kameraleute über potenziell anomale Ereignisse, um ihre Aufmerksamkeit zu lenken.
  • Sicherheitsüberwachung: Erkennen von möglicherweise unsicheren Ereignissen zur Vermeidung von Zwischenfällen.

Videozusammenfassung und -beschreibung

Abschließend lässt sich sagen, dass sich die Welt der Videoanalyse nicht auf Bounding Boxes und Klassenbezeichnungen beschränkt. Im Folgenden werden zwei weniger verbreitete Videoanalyseaufgaben vorgestellt, die auf eine kompakte Darstellung eines Videos abzielen: Zusammenfassung und Beschreibung.

Zusammenfassungen

Bei der Videozusammenfassung werden die informativsten oder beschreibendsten Bilder aus einem Video extrahiert. Im extremsten Fall wird nur ein einziges Bild extrahiert, um das Video zu repräsentieren (z. B. ein YouTube-Thumbnail).

Die Videozusammenfassung extrahiert die wichtigsten Bilder aus einem Video.

Ein Beispiel für ein Modell zur Videozusammenfassung, das für jedes Bild einen Wichtigkeitswert ausgibt. Quelle: https://www.microsoft.com/en-us/research/publication/video-summarization-learning-deep-side-semantic-embedding/

Beschreibung

Die automatische Videobeschreibung zielt darauf ab, eine textliche Beschreibung zu liefern, die angibt, was in dem Videoclip passiert. Optional können Beschreibungsmodelle auch einen Segmentierungsschritt beinhalten, bei dem das Video in verschiedene Abschnitte unterteilt wird und für jeden Abschnitt eine Textbeschreibung bereitgestellt wird.

Beispiel für die Ausgabe eines (geerdeten) Videobeschreibungsmodells. Quelle: https://github.com/facebookresearch/grounded-video-description

Beispielhafte Anwendungsfälle

  • Automatische Miniaturbildauswahl: Wählen Sie automatisch das aussagekräftigste Miniaturbild für ein Video aus.
  • Abrufen von Textinhalten: Durchsuchen von Videos mit Textabfragen, die den Inhalt des Videos beschreiben.

Fazit

Die Videoanalyse ermöglicht eine Vielzahl von Anwendungsfällen, die mehrere Bereiche abdecken. Dieser Blogpost ist keineswegs eine erschöpfende Liste, sondern wirft ein Licht auf das Potenzial der vielen Techniken. Obwohl es die Videoanalyse schon seit einiger Zeit gibt, haben wir erst vor kurzem begonnen, ihr volles Potenzial zu erahnen. Durch die Nutzung zeitlicher Informationen kommt die wahre Stärke von Videos zum Vorschein.

Möchten Sie herausfinden, was die Videoanalyse für Sie tun kann? Nehmen Sie Kontakt auf!

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision