Waymo erklärt: Training der neuronalen Netze
Das Autonome Fahren von Waymo bedient sich der Künstlichen Intelligenz. Nun erklärt Waymo, wie man diese trainiert.
Die neuronalen Netze geben den Impuls weiter, wenn der Reiz hoch genug ist. Das System funktioniert, wie die neuronalen Netze im menschlichen Gehirn und daher haben sie ihren Namen. Diese Systeme dienen der Erkennung und Sensorauswertung beim Autonomen Fahren. Außerdem berechnen diese die Zukunft aufgrund von Wahrscheinlichkeiten.
Dabei wird das Netzwerk immer wieder auf die richtige Antwort gestoßen, sodass es besser wird. Je schneller das gelingt, desto höher ist die Lernrate. Diese sollte möglichst hoch sein, damit das System verlässlich arbeitet.
Das Training eines solchen Systems erfordert Wochen. Statt es dem Zufall zu überlassen, welche Systeme schneller sind, nimmt man die schwachen Performer heraus und kann damit mehr Ressourcen nutzen. Doch die Herangehensweise ist sehr arbeitslastig. Waymo hat aber einen Weg gefunden, dieses Training zu verkürzen.
Erfolg verspricht die Methode zur automatischen Bestimmung guter Hyperparameter-Zeitpläne auf der Grundlage des evolutionären Wettbewerbs (“Population Based Training” – PBT). Dabei handelt es sich um einen Mix aus Zufall und menschlicher Auswahl.
Ähnlich der Zufallssuche werden mehrere Netzwerke mit zufälligen Parametern gestartet. Dabei gilt die Effizienz als “Survival of the fittest”. Die Hyperparameter werden beim nächsten Durchlauf leicht verändert, was dem Prinzip der Mutation abgeschaut wurde. Aber es braucht keinen kompletten Neustart, sondern man greift direkt in das Training ein.
Das Prinzip, das von DeepMind entwickelt wurde, lautet also Ausschluss der ineffizienten KIs durch kleine Wettbewerbe. Damit ist die Lernmethode effizienter als herkömmliche Trainingsmethoden für die Künstliche Intelligenz.
Der erste Einsatz ergab sich in der Analyse der unterschiedlichen Verkehrsteilnehmenden. Dabei wurde klar, dass man eine robuste Bewertung für die Netzwerke etablieren muss. Außerdem wurde klar, dass man eine schnelle Auswertung braucht. PBT-Modelle werden alle viertel Stunde ausgewertet.
Da man aber Gefahr läuft, dass funktionierende Systeme zu früh aus dem Rennen ausscheiden, hat man die Anzahl der KIs erhöht. Derart können später funktionierende Hyperparametern länger beibehalten bleiben. Dabei treten “Nischen”-KIs nur innerhalb ihrer Untergruppe im Wettbewerb gegeneinander an.
Damit erreichte man die Reduktion von Fehlalarmen um 24 Prozent im Vergleich zum konventionellen Lernmodell. Außerdem spart man sich viel Zeit und Ressourcen.
Quelle (englisch)