YOLO"-Modell

Dies ist die neueste, effizienteste und robusteste Iteration eines neuronalen Faltungsnetzwerks zur Objekterkennung aus Bildern oder Videoframes. Was es von den vorherigen Iterationen unterscheidet, ist, dass YOLO mehrere Klassen von Objekten aus einem einzigen Frame mit relativ wenig Rechenaufwand klassifizieren kann. Dieses Modell kann verwendet werden, um die Erkennung von freien Plätzen in Restaurants, die Erkennung von Menschenmengen usw. zu implementieren. Die vorgestellte Demo-Anwendung kann viele Objekte in einem Bild erkennen, wie Stühle, Flaschen, Bildschirme usw.

Die Beispielanwendung ist mit einer Computer-Vision-Bibliothek (open cv) in Python implementiert. Die Kamera liefert Live-Videobilder, die iterativ durchlaufen werden, um einzelne Bilder zu bearbeiten. Die einzelnen Frames, bei denen es sich im Wesentlichen um Bilder handelt, werden in das YOLO-Modell mit vortrainierten Gewichten eingespeist, um mehrere Objekte in einem einzelnen Frame zu klassifizieren. Das Netzwerk beschriftet dann jedes Objekt im Bild, zusammen mit Begrenzungsrahmen, um eine Vorstellung von den Objektgrenzen zu geben.

Ein YOLO-Modell wird durch das Training eines neuronalen Faltungsnetzwerks auf Tausenden von beschrifteten Bilddaten erstellt.

Python
OpenCv
YOLO

Erkennung menschlicher Aktivitäten

Der Wirksamskeitsnachweis dieser Idee befindet sich im Stadium der Entwicklung. Die Implementierung lehnt sich an eine Kombination aus mehreren Ideen der Posenerkennung mit PoseNet und der Frame-Klassifizierung mit einem neuronalen Faltungsnetzwerk an. PoseNet ist ein bestehendes Modell, das auf Bildern mit menschlichen Körperpunkten trainiert wurde und das menschliche Posen erkennen und die Körperpunkte auf einem Frame darstellen kann, während CNN ein Modell zur Bildklassifizierung ist. Die Kombination der beiden Netzwerke kann menschliche Aktivitäten in Echtzeit plausibel erkennen. Wenn das resultierende Modell eine bestimmte Genauigkeit erreicht, kann es verwendet werden, um Anomalien bei menschlichen Aktivitäten zu erkennen, wie z. B. eine Schlägerei in einer Kneipe.

Python
PoseNet, CNN oder LSTM