Teslas KI-Training

Der Hersteller Tesla nutzt Künstliche Intelligenz für das Autopilot-System. Wie wird es trainiert?

Der Verantwortliche bei Tesla für die KI-Programme ist Andrej Karpathy, der jüngst von den drei Milliarden Testmeilen erzählte. Doch wie trainiert man die KI mit den Daten?

Auto auf Code

Tesla gehört zu den Unternehmen der Branche, die auf einen Lidar verzichten wollen. Die Kamera ist der Hauptsensor und die Auswertung übernimmt die KI, die bei Tesla mit dem FSD-Chip verbunden ist. Der Name FSD steht für Full Selfdriving und das ist auch das Ziel. Der Name ist dabei verwirrend, denn das Ziel ist selbstverständlich noch lange nicht erreicht.

Aus dem Datenpool der realen Fahrten der Tesla-Kundschaft, nimmt man sich die Trainingsbeispiele für die KI von Tesla. So beispielsweise Rotlichter der Ampeln oder die Stoppschilder, die Tesla nun erkennen kann. Denn dank des Datensatzes verfügt man über ein großes Repertoire an Bildern von Stoppschildern, auch aus ungünstigen Positionen.

Je mehr Dinge die KI erkennen kann, desto besser kann es in der realen Welt agieren. Je mehr potenzielle Situationen das Modell trainiert, desto abstrakter werden die Szenarien, mit denen es umgehen kann. Dabei muss die KI, genau wie der Mensch, nicht alles gesehen haben, um es zu erkennen. Man kann wohl aber konstatieren, dass je umfassender die Erfahrung mit einer bestimmten Anwendung ist, desto robuster wird die resultierende Lösung.

Um die Beziehung zwischen Raum und Objekt herzustellen, bedient sich das Konzept von Tesla der Vogelperspektive. Auch Nvidia macht das mit seinem LidarNet, das allerdings auf Lidardaten zurückgreift. Diese Perspektive wird in Echtzeit berechnet und in drei Dimensionen erfasst – bei Tesla ohne Lidar.

Die Komplettierung des Bildes erreicht man mit dem Occupancy Tracker. Dieser bedient sich der 2D-Daten und projiziert sie auf die Welt. Die 2D-Bilder werden in 3D extrapoliert, was viel Rechenleistung braucht. Derart erreicht man ein Pseudo-Lidar, wie man es bei Tesla nennt.

Die Berechnung impliziert die Tiefeneinschätzung eines jeden Pixels auf dem Bild, um den Lidar zu imitieren. Dieser wird aufgrund der Kosten nicht verwendet. Die menschliche Vorarbeit, die man als Code 1.0 bezeichnet, wird von der KI-Software Code 2.0 übernommen und verfeinert. Die Grenzen sind dabei fließend.

,

Comments are closed.