Mit der zunehmenden Anzahl von Kameras und der Fülle an Videomaterial entsteht eine neue Dimension der Videoanalyse. Durch die Nutzung der zeitlichen Dimension ermöglichen Videoanalysemodelle eine Vielzahl von Anwendungsfällen, von der Verbraucheranalyse im Einzelhandel bis hin zur Echtzeit-Sportüberwachung.
Bei ML6 haben wir ein zunehmendes Interesse an der zeitbasierten Videoanalyse festgestellt. Seit Jahren wird ML auf Videos angewandt, bleibt aber in der Regel auf bildbasierte Techniken beschränkt. Die Verwendung von bildbasierten Modellen schöpft das wahre Potenzial der Videoanalyse nicht aus. Die Grenzen dessen, was mit bildbasierten Methoden möglich ist, werden jedoch immer deutlicher. Die Lösung, die die zeitliche Dimension mit einbezieht, enthüllt neue Informationen und öffnet die Türen zu einer ganzen Reihe von neuen Möglichkeiten.
Nehmen Sie zum Beispiel das folgende Bild und Video. Das Bild auf der linken Seite zeigt scheinbar zwei Personen, die versuchen, ihr kaputtes Auto zu reparieren. Auf der Grundlage eines einzigen Bildes ist es unmöglich festzustellen, ob sie das Auto wirklich reparieren oder versuchen, es zu stehlen. Erst wenn man den gesamten Kontext berücksichtigt, sieht man, dass die beiden Personen in einem anderen Auto ankommen, die Motorhaube gewaltsam öffnen und schnell wegfahren, während sie sich nervös umschauen.
Ein Beispiel für ein Diebstahlvideo aus dem UCF Crime-Datensatz. Quelle: https://www.crcv.ucf.edu/projects/real-world/
Dieser Blogpost gibt einen Überblick über die wichtigsten Forschungsbereiche der Videoanalyse. Für jedes der folgenden Teilgebiete stellen wir einige der wichtigsten Anwendungsfälle vor:
Tracking ist eine der grundlegendsten Techniken im Bereich der Videoanalyse. Im Falle eines Einzelbildes ist jedes Objekt einzigartig und bekannt. Sobald wir die zeitliche Dimension hinzufügen, haben wir mehrere Bilder oder Frames desselben einzigartigen Objekts. Das Ziel der Verfolgung ist es, diese Sichtungen desselben Objekts miteinander zu verknüpfen, um eine Spur durch die Zeit zu bilden. Je nach Anzahl der Objekte und Blickwinkel gibt es verschiedene Arten der Verfolgung. Diese werden im Folgenden erörtert.
Bei der Einzelobjektverfolgung (Single Object Tracking, SOT), die auch als visuelle Objektverfolgung (Visual Object Tracking, VOT) bezeichnet wird, wird ein einzelnes Objekt in einem Video verfolgt. Dem Tracker wird ein Begrenzungsrahmen des Zielobjekts im ersten Bild vorgegeben. Der Tracker verfolgt dann dieses Objekt in den folgenden Bildern. Nach der Vorgabe des ersten Begrenzungsrahmens sind keine weiteren Objekterkennungen erforderlich. Diese Art von Trackern wird als detektionsfrei bezeichnet: Sie sind nicht auf einen Detektor angewiesen. Infolgedessen kann jede Art von Objekt verfolgt werden, da keine Abhängigkeit von einem Objektdetektor mit einem festen Satz von Klassen besteht.
Wie der Name schon sagt, sind beim Multi-Objekt-Tracking (MOT) mehrere Objekte zu verfolgen. Ein MOT-Tracker basiert auf der Erkennung von Objekten, er benötigt Objekterkennungen als Eingabe und gibt einen Satz neuer Bounding Boxes mit entsprechenden Track-Identifikatoren aus. MOT-Tracker assoziieren typischerweise Erkennungen auf der Grundlage von Bewegung und visuellem Erscheinungsbild. Sie sind auf eine feste Anzahl von Klassen beschränkt, da sie sowohl vom zugrunde liegenden Tracker als auch vom visuellen Erscheinungsbildmodell abhängig sind. Ein Modell, das für die Erkennung ähnlicher Personen trainiert wurde, wird beispielsweise bei Fahrzeugen nicht gut abschneiden, da es gelernt hat, nach Unterscheidungsmerkmalen von Personen zu suchen.
Das Multi-Target-Multi-Kamera-Tracking fügt dem MOT eine weitere Komplexitätsebene hinzu und führt mehrere Kameras oder Blickwinkel ein. Der Tracker hat nun eine Vorstellung von der Tiefe und ist in der Lage, genauere Spuren auszugeben. Leider geht dies in der Regel auf Kosten der Rechenkomplexität aufgrund der zusätzlich zu verarbeitenden Informationen. Zu jedem Zeitpunkt empfängt der MTMCT-Tracker ein Bild von jedem Blickpunkt.
Die Re-Identifizierung ist ein Teilbereich der MTMCT, sie betrifft mehrere Objekte und Gesichtspunkte, aber die zeitliche Beziehung zwischen den Erkennungen ist unterschiedlich. Bei MTMCT erhält der Tracker zu jedem Zeitpunkt von jedem Standpunkt eine Reihe von Erkennungen zu diesem Zeitpunkt. Im Gegensatz dazu wird ReID in der Regel mit Erkennungen von mehreren Blickpunkten zu mehreren Zeitpunkten durchgeführt. Ein weiterer Unterschied zu MTMCT besteht darin, dass ReID-Kameras nicht auf denselben Bereich gerichtet sein müssen. Im Allgemeinen sind die ReID-Sichtpunkte über ein größeres Gebiet verstreut.
Die meisten Anwendungsfälle beinhalten zunächst die Verfolgung von Personen an den einzelnen Aussichtspunkten. Auf der Grundlage der eindeutigen Personen pro Blickpunkt wird eine Galerie aller Personen erstellt, die von verschiedenen Blickpunkten aus gesehen wurden. Anhand eines Bildes einer abgefragten Person versucht ReID dann, die Erkennungen dieser Person von anderen Aussichtspunkten in der Galerie abzurufen. ReID übernimmt also dort, wo MOT aufhört, und verfolgt die Spur über die Blickpunkte hinweg.
Drei Bilder aus drei verschiedenen Blickwinkeln zu drei verschiedenen Zeitpunkten, die dasselbe Objekt enthalten.
Neben videobasierten Techniken können auch Bildaufgaben stark von zeitlichen Informationen profitieren. Verschiedene bildbasierte Verfahren sind um die zeitliche Dimension erweitert worden. Anstatt naiv Informationen pro Bild auszugeben, verfolgen die Modelle Objekte über die Zeit und verwenden die Ergebnisse des vorherigen Bildes, um die nächste Vorhersage zu verbessern. Beispiele hierfür sind die Segmentierung von Objekten und die Schätzung der Körperhaltung.
Videoerkennung ist die Fähigkeit, Entitäten oder Ereignisse in Videos zu erkennen. Ähnlich wie bei der Bilderkennung gibt es mehrere Arten der "Erkennung", die vom Informationsgehalt der ausgegebenen Informationen abhängen. Ein Modell kann klassifizieren, lokalisieren oder beides tun. Die verschiedenen Arten der Erkennung werden im Folgenden erläutert.
Eine der grundlegendsten Techniken ist die Videoklassifizierung, bei der einem gesamten Videoclip eine relevante Bezeichnung zugewiesen wird. Es gibt keine räumliche oder zeitliche Lokalisierung, also keine Begrenzungsrahmen oder Zeitstempel. Infolgedessen sind die Videoclips in der Regel nur wenige Sekunden lang.
Bei der zeitlichen Lokalisierung werden relevante Aktionen oder Entitäten sowohl klassifiziert als auch zeitlich lokalisiert. Sie wird auch als Erkennung auf Bildebene bezeichnet. In einem einzigen Video können mehrere Ereignisse oder Objekte mit ihren entsprechenden Start- und Endzeiten erkannt werden. Die zeitliche Lokalisierung ist im Vergleich zur Klassifizierung eine größere Herausforderung, da das Modell vorhersagen muss, wann eine Aktion oder ein Objekt beginnt und endet.
Die Erkennung von Aktionen oder Objekten klassifiziert und lokalisiert relevante Aktionen oder Objekte sowohl zeitlich als auch räumlich. Die Erkennung von Objekten ähnelt der Verfolgung mehrerer Objekte, ein Objekt wird erkannt und über mehrere Bilder hinweg zugeordnet. Bei der Aktionserkennung werden jedoch Aktionen erkannt, die in der Regel nur in der Zeit existieren. Die Erkennung von Aktionen/Entitäten wird als Erkennung auf Pixelebene klassifiziert.
Was ist, wenn wir Ereignisse erkennen wollen, die vom normalen Verhalten abweichen, wir aber nicht über einen Datensatz mit allen derartigen Ereignissen verfügen? Was, wenn Sie nicht wirklich daran interessiert sind, welche Art von Ereignis auftritt, sondern nur, dass es auftritt? Hier kommt die Anomalieerkennung ins Spiel!
Die Erkennung von Videoanomalien zielt darauf ab, anomale Ereignisse oder Aktionen in Videos zu erkennen und zeitlich zu lokalisieren. Anomale Ereignisse sind definiert als Ereignisse, die auf irreguläres Verhalten hinweisen. Sie reichen vom Gehen in die falsche Richtung bis hin zu Gewaltverbrechen. Modelle zur Erkennung von Anomalien geben im Allgemeinen einen Wert aus, der die Wahrscheinlichkeit einer Anomalie zu jedem Zeitpunkt angibt. Folglich gibt es keine Klassifizierung eines bestimmten Ereignistyps.
Abschließend lässt sich sagen, dass sich die Welt der Videoanalyse nicht auf Bounding Boxes und Klassenbezeichnungen beschränkt. Im Folgenden werden zwei weniger verbreitete Videoanalyseaufgaben vorgestellt, die auf eine kompakte Darstellung eines Videos abzielen: Zusammenfassung und Beschreibung.
Bei der Videozusammenfassung werden die informativsten oder beschreibendsten Bilder aus einem Video extrahiert. Im extremsten Fall wird nur ein einziges Bild extrahiert, um das Video zu repräsentieren (z. B. ein YouTube-Thumbnail).
Die automatische Videobeschreibung zielt darauf ab, eine textliche Beschreibung zu liefern, die angibt, was in dem Videoclip passiert. Optional können Beschreibungsmodelle auch einen Segmentierungsschritt beinhalten, bei dem das Video in verschiedene Abschnitte unterteilt wird und für jeden Abschnitt eine Textbeschreibung bereitgestellt wird.
Die Videoanalyse ermöglicht eine Vielzahl von Anwendungsfällen, die mehrere Bereiche abdecken. Dieser Blogpost ist keineswegs eine erschöpfende Liste, sondern wirft ein Licht auf das Potenzial der vielen Techniken. Obwohl es die Videoanalyse schon seit einiger Zeit gibt, haben wir erst vor kurzem begonnen, ihr volles Potenzial zu erahnen. Durch die Nutzung zeitlicher Informationen kommt die wahre Stärke von Videos zum Vorschein.
Möchten Sie herausfinden, was die Videoanalyse für Sie tun kann? Nehmen Sie Kontakt auf!