TU Delft: D. Gavrila zur Sensorvision | Tech A.D.

Der Prof. DR. Dariu Gabrila von der TU Delft behandelte die Fahrzeugwahrnehmung und die Bewegungsprognose von Passanten.
Auf dem Kongress Tech A.D. von WeConect hielt Prof. Dr. D. Gavrila, der zuvor bei Mercedes-Benz tätig war, einen spannenden Beitrag über die Herausforderungen, mit denen man es bei der Umwelterfassung beim Autonomen Fahren zu tun hat.

Gavrila Vortrag TechAD Weconect
Dabei ist die Autobahn gegenüber dem urbanen Gebiet relativ leicht zu bewältigen. Die Verkehrsbedingungen der Innenstädte, wie man sie in Delft in den Niederlanden vorfindet, sind eine besondere Herausforderung. Dabei fokussiert man sich, nach der inzwischen recht guten Sensorik, auf die Verhaltensprognose. Damit ist das Fahren sicherer, bequemer und zeiteffizienter, so der Forscher.
Die Grundlage dafür sind Bewegungsmodelle, wobei diese je nach Modell relativ ungenau sind. Jedoch ist man nie ganz sicher bis auf die Ungewissheit und man steht im Spannungsverhältnis von ungenau und vielleicht falsch. Es braucht eine spezifische Bewegungsanalyse mit einer hohen Wahrscheinlichkeit.
Dafür bedient man sich der Verhaltensprognose, die durch die Sensorik wahrgenommen werden muss. Dazu gehört die semantische Erfassung der Verkehrsszene, die Bewegungsanalyse und das Verhaltensmodell. Die Semantik-Aufschlüsselung erhält man mit Hilfe des Pyramid Scene Parsing Nets. Man kann die Daten mit Hinweisen, wie geografische Punkten verbessern. Letztlich ist das Ziel die Fahrzeugkontrolle.
Bisherige Systeme berechnen nur den Positionspunkt der Passanten, die Bewegung kann dabei über Bildbewegungen und Farben wahrgenommen werden. Diese Augmented Reality erlaubt es der Maschine zu lernen und damit die Vorhersage zu tätigen.
So muss die KI den Kontext der Wahrnehmung implizieren, um die Entwicklung voraussagen zu können. Und diese Einflüsse sind vielfältig: Von der Gestik über die Bewegung bis zum Gesichtsausdruck. Auch das Alter muss erkannt werden, wie auch das Geschlecht, die Kleidung (handelt es sich um eine Person der Polizei?) und selbstverständlich Objekte. Und deren Interaktion miteinander und die Infrastruktur gehört zu den Daten, die man erfassen muss. Aus all den Daten kann man das Verhalten der Menschen besser vorhersagen.
Da man aber nicht für jede Situation ein Modell schreiben kann, muss das System es lernen. Die Kontextbezogene Wahrnehmung ist um eine ganze Sekunde schneller und exakter bei der Situationsbewertung, als bisherige Systeme. So kann das Auto auch entscheiden, statt abzubremsen, auszuweichen. Bei dieser Entscheidung braucht es eine schnelle Reaktion.
Für die schwachen Verkehrsteilnehmenden, Passanten und Radfahrende, gibt es eine Kurzzeitvorhersage: Dynamische Systeme und Non-Linerare Regression. Längere Abstände können Trajectory Learning (Richtungslernen) und Goal-Directed Planning (Zielgerichtetes Planen) abgedeckt werden.
Erfolgreich getestet hat man das System in der Simulation, auf der Teststrecke und im realen Verkehr.