Künstliche neuronale Netzwerke haben sich in vielen modernen Systemen etabliert. Mitunter sind sie in vielen mobilen Applikation als Assistent für Sprach- oder Bilderkennung integriert. Dabei funktionieren sie ähnlich wie unser Gehirn. Reize werden durch ein Netzwerk von Neuronen gefeuert und resultieren letztendlich in einer Aktion. Wir hören etwas von rechts und werden auf dieses akustische Signal mit einer Kopfbewegung nach recht reagieren. Wenn wir immer wieder Signale derselben Art wahrnehmen, wird sich unsere Reaktion darauf optimieren. Beispielsweise wird sich die Reaktionszeit verringern und wir drehen schneller den Kopf. Dieser Prozess wird als Lernen bezeichnet und findet so auch in neuronalen Netzwerken statt. Die Verbindungen zwischen Neuronen bzw. das Aktivitätslevel eines einzelnen Neurons wird gestärkt bzw. geschwächt abhängig davon, wie oft und stark das Neuron Signale erhält bzw. sendet.
Reinforcement Learning werden Lernmethoden für neuronale Netzwerke bezeichnet, die sehr nah an menschlichen Lernmethoden sind. Das Programm wird dafür belohnt, wenn es etwas gut macht bzw. bestraft, wenn es etwas schlecht macht. Dies führt dazu, dass in der gleichen Ausgangslage die bewertete Aktion öfter bzw. seltener gewählt wird. Ich schieße den Ball neben das Tor resultiert darin, dass ich das nächste Mal etwas weiter rechts bzw. links schießen werde, falls ich mich nochmal in dieser oder einer ähnlichen Situation wiederfinden sollte. Mit Hilfe von solchen Verfahren konnten in den vergangenen Jahren beachtliche Fortschritte in der Forschung gemacht werden. Unter anderem konnten professionelle Spieler in strategisch anspruchsvollen Brettspielen, wie Schach und GO, aber auch in sehr komplexen Computerspielen, wie Starcraft2 und Dota, besiegt werden.
In der Faszination, dass Programme in der Lage sind aus ihren Fehlern zu lernen und so übermenschliche Fähigkeiten zu erlangen, steckt die Motivation hinter meiner Arbeit. In der Anwendung kann beobachtet werden, wie solche Agenten das Spielen von Computerspielen durch immer neue Strategien erlernen. Auf den Lernprozess kann direkt eingegriffen werden, indem eine Vielzahl von Parametern angepasst werden kann. Und wenn man Parameter gegeneinander abgleichen möchte, so können Agenten auch geklont werden. Zusätzlich kann in Echtzeit beobachtet werden, wie die Signale durch die Netzwerke gefeuert werden.
Sie verlassen die offizielle Website der Hochschule Trier