Das Ende naht: Googles AlphaZero schlägt stärkstes bekanntes Schachprogramm

Mit 20 Jahren Verspätung wird Skynet doch noch Realität: Googles DeepMind hat anscheinend einen generalisierten Algorithmus entwickelt, mit dem es das bislang stärkste Schachprogramm (Stockfish 8) in 100 Partien vernichtend geschlagen hat (28 Siege, 72 Unentschieden, keine Niederlage). Dieser Algorithmus soll auf Probleme aus dem wirklichen Leben verallgemeinerbar sein. Bridge verbleibt als eines der letzten klassischen Spiele, in denen Computerprogramme noch deutlich schlechter als die besten Experten spielen. Kritik wird daran geäußert, dass der Algorithmus geheim ist und die Ergebnisse daher nicht reproduzierbar sind.

Wie funktioniert der AlphaZero-Algorithmus?

Das besondere am AlphaZero-Algorithmus ist, dass dem Programm lediglich die Schachregeln vorgegeben wurden und es dann in vier Stunden auf 5.000 TPUs etwa 700.000 Partien gegen sich selbst gespielt hat.

Ähnlich ist DeepMind anscheinend bereits bei Go vorgegangen: In der ersten Version hat das Programm AlphaGo aus 30 Millionen Stellungen aus menschlichem Spiel Bewertungsregeln gelernt. Anschließend war das Programm in der Lage war, 57% der Züge von guten Spielern vorauszusagen (siehe z. B. hier). Daraufhin hat es nur noch gegen sich selbst gespielt und daraus gelernt. Das Programm hat den von 2009 bis 2011 weltbesten Spieler Lee Sedol mit 4:1 geschlagen.

In einer zweiten Version hat AlphaGo nur noch gegen sich selbst gespielt, ohne durch das menschliche Wissen verdorben zu sein. Das Resultat: 100:0 für die zweite Version nach drei Tagen Training! Die endgültige Version AlphaGo Master hat insgesamt 40 Tage trainiert.

Das wissenschaftliche Paper zu AlphaZero können Sie hier herunterladen.

Alte Programme beruhten eher darauf, den künftigen Baum an möglichen Stellungen abzusuchen und daraus die bestmögliche Spielweise zu finden („bloße Rechenkraft“). Der neue Ansatz von Google beruht auf einer selbst erlernten besseren Bewertung der Stellung („Intuition“). Dadurch, dass Menschen keine Bewertungsfunktionen mehr vorgeben, sondern der Computer diese selbst lernt, wird der Algorithmus universell(er) einsatzbar, als ein Programm, das lediglich Schach oder Go gut spielt.

Ist dies ein großer wissenschaftlicher Durchbruch?

Dieser Algorithmus ist wissenschaftlich ein großer Durchbruch. Jemand sagte zu mir: „Vergleichbar mit der Entdeckung der Kernspaltung 1938.“

Von anderer Stelle wird aber das Ausmaß des wissenschaftlichen Durchbruchs bezweifelt:  

– Da der Algorithmus nicht öffentlich zugänglich ist (er wird kommerziell von Google genutzt), kann das Ergebnis nicht von unabhängigen Stellen reproduziert werden.

– 4 Stunden Training auf 5.000 TPUs (Tensor Processing Units, spezielle Prozessoren für Machine Learning-Anwendungen) entspräche 2 Jahren Training auf einer TPU und noch einmal sehr viel länger auf einer normalen CPU.

– Die Spielbedingungen (1 Minute Bedenkzeit pro Zug) sind ungewöhnlich. Einer der ursprünglichen Entwickler von Stockfish Tord Romstadt sagt, dass eine der Stärken von Stockfish gerade darin bestehe, kritische Momente in einer Partie zu erkennen und in diesen Phasen mehr Zeit aufzuwenden.

– Stockfish und AlphaZero haben mit sehr vielen Threads (parallel laufende Prozesse) gespielt. Stockfish wurde hierfür nicht entwickelt und entsprechend getestet, so dass die technischen Voreinstellungen hierfür nicht optimal waren. Außerdem wurde eine ein Jahr alte Spezifikation von Stockfish eingesetzt.

– Es wurden lediglich 10 Partien veröffentlicht.  Es ist unklar, ob das Spiel bei bestimmten Positionen anfing oder aus der Anfangsstellung.

– Ob dieser Algorithmus auf real-life-Probleme angewendet werden kann, ist unklar. Schach hat klar umrissene Regeln und das Spiel hat eine endliche Menge an möglichen Spielsituationen.

 

Stellungnahmen von bekannten Schachspielern finden sich hier.

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert