Anul 2018 a adus cu sine o uriasă surpriză pentru tot ceea ce înseamnă lumea șahului. Aceasta a venit de la DeepMind, departamentul de A.I. al Google, și s-a numit AlphaZero _ un program ”autodidact” ce putea să facă progrese uriase, fără ajutor uman, în diferite tipuri de ”jocuri ale minții”, în special la șah, go și shogi.
Bineînțeles, majoritatea fanilor șahului folosesc déjà în mod regulat motoare de jucat șah și datorită acestui fapt ei cunosc întrucâtva potențialul și capacitățile extraordinare ale programelor de jucat șah. De unde a venit surpriza, atunci? Prin ce se diferențiază acest program de jucat șah de celelalte programe? Este de notorietate printre iubitorii jocului de șah ca programele de șah au depășit cu mult forța de joc a campionilor de șah umani. În ultimii 10 ani softurile de jucat șah au inundat piața de profil și toată lumea știe acum ce pot să facă Stockfish, Houdini sau Komodo.
Surpriza deosebită a venit, în primul rind, din faptul că AlphaZero a reușit să învingă pe Stockfish, campionul absolut al motoarelor de jucat șah, cu un scor incredibil 290+ 886= 24- (290 victorii și doar 24 de înfrângeri). Iar acestă performanță a fost obținută în urma unui proces de învățare, de tip ”autodidact”, ce a durat doar 4 ore.
De unde și ce naiba a putut să învețe AlphaZero în patru ore, astfel încât să îl poată ”demola” pe Stockfish? Câte baze de date a folosit Alpha Zero pentru a cunoaște ”totul despre șah”? Câți terabiți de memorie au bazele de date folosite de către acest program? Bazele de date sunt stocate în folderul de instalare sau în cloud? Oare acest program are câțiva Megabiți și e un fel de David care poate să doboare orice Goliat? Cu toții știm că în procesul de învățare creierul uman stocheaza o mulțime de informații. Unde a stocat AlphZero informațiile și sub ce formă? Cred că prin mințile tuturor au trecut acest gen de întrebări.
Lămuririle au venit de la cercetătorii de la DeepMind. La începutul procesului de învățare, AlphaZero a pornit de la Zero cunoștințe despre șah, programului fiindu-i implementate doar regulile de bază ale jocului. În continuare, AlphaZero a folosit capacitatea de procesare a supercalculatoarelor de la Google ca să joace aleatoriu, cu sine însuși, 44 de milioane de partide, marea majoritate a acestora fiind jucate simultan. Din aceste 44 milioane partide, jucate în timp de patru ore, AlphaZero a învățat atît de multe lucruri despre șah încît l-a desființat pe Stockfish.
Cum a învățat și ce a învățat AlphaZero din cele 44 milioane de partide nu ne-a spus nimeni foarte clar, pentru că e secret probabil. 🙂
Cercetătorii de la DeepMind ne-au spus doar atât, programul a făcut la început mutări aleatorii și apoi a început să învețe din propriul joc. Spre deosebire de Stockfish, care este un mechanism extrem de complex, fiind format din 50 de module distincte, specilizate pe anumite teme strategice sau tehnice din șah, AlphaZero este format dintr-o rețea neuronală și un algoritm numit Monte Carlo Tree Search. Se pare că aceste două entități colaborează în felul următor: MCTSearch caută în arborele de calcul poziții tipice secvențiale și le trimite către rețeaua neuronală, iar aceasta face o evaluare privitoare la șansele acestora de a fi câștigătoare la finalul jocului, după care alege, din mutările posibile în acel moment, mutarea cea mai bună pentru atingerea acestui scop. Simplu, nu? Exact așa lucrează și creierul unui șahist uman, recunoaștem pozițiile tipice și apoi căutăm cea mai bună mutare care să ne ducă spre câștig. Diferența de forță de joc dintre mașină și șahistul uman vine din faptul că Inteligența Artificială are memorie mult mai bună, are experiență înmiit mai mare (44 milioane partide jucate), are viteză de calcul uriașă și o acuratețe crescută ce se datorează ”sporului” de memorie și plusului semnificativ de experiență. 🙂

 

Dacă v-a plăcut articolul, nu uitați… Share on Facebook !