Kontaktai

Pats sau pedagogas

Naujausios rūšies dirbtinis intelektas (DI) gali viską išsiaiškinti be žmonių pagalbos

2016 m. Seule kompiuterinė programa „AlphaGo“ rezultatu 4:1 įveikė Lee Sedolą, vieną geriausių „Go“ žaidėjų pasaulyje. Ir žaidimo „Go“, ir DI istorijai tai – svarbus įvykis. Kinų, korėjiečių ir japonų kultūroje šis žaidimas užima panašią vietą kaip šachmatai Vakaruose. Įveikusi Lee Sedolą, „AlphaGo“ internete pergalingai sužaidė nemažai anoniminių partijų prieš tuzinus žymių „Go“ entuziastų, kol pagaliau gegužę Udžene, Kinijoje, susirėmė su geriausiu „Go“ žaidėju – Ke Jie. Šiam sekėsi ne geriau nei Lee Sedului – kompiuteris laimėjo 3:0.

DI tyrėjai „Go“ taip pat vertina puikiai. Šachmatus mašinos įveikė dar 1997-aisiais, kai Garis Kasparovas pralaimėjo IBM kompiuteriui „Deep Blue“. Bet sudėtingasis „Go“ nepasidavė mašinoms iki pat Lee Sedolo pralaimėjimo. „AlphaGo“ pergalė aiškiai parodė, ką gali sistemų mokymusi pagrįstas DI, kai siekiama, kad kompiuteriai galėtų patys mokytis, kaip atlikti sudėtingas užduotis.

Mokydamasi žaisti „Go“, „AlphaGo“ išstudijavo tūkstančius patyrusių žmonių sužaistų partijų, iš jų išsirinko taisykles ir strategijas, o vėliau jas šlifavo žaisdama milijonus partijų su savimi. To užteko, kad programa pranoktų bet kurį „Go“ žaidžiantį žmogų. Bet „AlphaGo“ sukūrusios bendrovės „DeepMind“ tyrėjai neabejojo galintys patobulinti programą. „Nature“ ką tik paskelbė jų darbą, kuriame pristatoma naujausia programos versija „AlphaGo Zero“. Šioji daug meistriškiau žaidžia, gerokai sparčiau mokosi žaisti ir sėkmingam darbui nereikalauja tiek daug aparatinės kompiuterinės įrangos. O svarbiausia, kad „AlphaGo Zero“, skirtingai nei pradinė versija, žaisti išmoko pati, be žmonių (ekspertų) pagalbos.

Akies mirksniu

Kaip visus geriausius žaidimus, išmokti žaisti „Go“ paprasta, bet tobulai įvaldyti sunku. Du žaidėjai, juodieji ir baltieji, paeiliui deda akmenukus lentoje nubrėžtų 19 vertikalių ir 19 horizontalių linijų susikirtimo taškų. Tikslas – užimti daugiau teritorijos nei priešininkas. Varžovo apsupti akmenukai nuimami nuo lentos. Žaidžiama, kol nė vienas dalyvių nebegali tęsti. Tada kiekvienas susiskaičiuoja ant lentos turimus akmenukus ir prideda apsuptas tuščias sankirtas. Laimi surinkęs daugiausia taškų.

Kaip visus geriausius žaidimus, išmokti žaisti „Go“ paprasta, bet tobulai įvaldyti sunku.

Žaidimas sudėtingas vien dėl įspūdingo galimų ėjimų skaičiaus. Lentoje, kurios dydis 19 × 19, dėdami pirmą akmenuką juodieji gali rinktis iš 361 vietos. Atsakomajam baltųjų ėjimui lieka 360 variantų ir t. t. Taisykles atitinkančių kombinacijų skaičius lentoje siekia 10¹⁷⁰. Tokio dydžio skaičius neturi fizinių analogų (antai skaičiuojama, kad matomoje visatoje yra apie 10⁸⁰ atomų).

Todėl žaidimo meistrais tapę žmonės bando įsigilinti į aukštesnio lygio žaidimą. Paprastos „Go“ taisyklės palieka daug vietos plėtotinei struktūrai. Žaidėjai kalba apie tokias kombinacijas kaip „akys“ ir „kopėčios“, apie tokias sąvokas kaip „grėsmė“ bei „gyvybė ir mirtis“. Žmonėms suprasti tokias sąvokas gana lengva, bet apibrėžti jas taip tiksliai ir aiškiai, kad galėtum užprogramuoti kompiuterį, gerokai sunkiau. Todėl buvo pradėtas prižiūrimas mokymasis, ir pradinė „AlphaGo“ versija išnagrinėjo tūkstančius žmonių sužaistų partijų. Kadangi asmenų žaidimas atspindi jų gebėjimą suvokti minėtąsias sąvokas, peržiūrėjęs pakankamai partijų kompiuteris taip pat gali pradėti jas suprasti. Kai padedama ją mokančių žmonių „AlphaGo“ neblogai įvaldė taktiką ir strategiją, jai nebereikėjo pagalbos. Programa ėmė mokytis savarankiškai, su savimi žaisdama milijonus partijų, ir sulig kiekviena sekėsi vis geriau.

Prižiūrimo mokymosi nauda „Go“ neapsiriboja. Būtent iš šios idėjos kyla daugelis naujausių pasiekimų DI srityje. Pavyzdžiui, kompiuteriams padedama mokytis ieškoti veidų nuotraukose, patikimai atpažinti žmogaus kalbą, efektyviai filtruoti į el. paštą siunčiamą šlamštą ir ne tik. Bet, kaip pabrėžia „DeepMind“ vadovas Demisas Hassabisas, prižiūrimas mokymasis gali ne viską. Kompiuteriui būtina pateikti mokomųjų duomenų, kad mašina matytų, ką turi daryti. Duomenis turi atrinkti patyrę žmonės. Antai atpažinti veidus mokomasi iš tūkstančių nuotraukų su veidais ir be jų, ir žmogui tenka sužymėti, kuriose veidų yra, kuriose – ne. Todėl tokie duomenų rinkiniai – brangūs, jei jų apskritai yra. Moksliniame straipsnyje minima ir subtilesnių problemų tikimybė. Kai instruktuoja žmonės, kyla pavojus kompiuteriui primesti gyvųjų galimybių ribas.

Kuriant „AlphaGo Zero“ siekta išvengti minėtų problemų – ji iš karto sėda ant dviračio be pagalbinių ratukų. Pradėjusi mokytis programa gauna tik žaidimo taisykles. Be to, taikoma „medalio funkcija“, t. y. už pergalę taškas skiriamas, o už pralaimėjimą – atimamas. Tada programa skatinama eksperimentuoti, su kitomis savo versijomis žaisdama vieną partiją po kitos. Vienintelis apribojimas – ji turi siekti surinkti kuo daugiau taškų, t. y. laimėti kuo daugiau partijų.

Iš pradžių programa dėliojo akmenukus, kaip pakliuvo, nelabai suvokdama, ką daro. Bet jos įgūdžiai sparčiai augo. Jau po pirmos dienos ji žaidė kaip pažengęs profesionalas. O po poros dienų pralenkė 2016 m. Lee Sedolą įveikusią versiją.

„DeepMind“ tyrėjai turėjo galimybę stebėti, kaip jų kūrinys pats išsiaiškina tai, ką žmonija aiškinosi žinias apie „Go“ kaupdama tūkstančius metų. Kartais programa keistai priminė žmogų. Pasimokiusią apie tris valandas, ją užvaldė mintis godžiai kirsti akmenėlius – tokį etapą pereina ir dauguma pradedančių žaisti žmonių. Kitais kartais ji atrodė visiškai svetima. Antai žaidime galima įstrižai lentos dėlioti vadinamąją kopėčių kombinaciją, bandant nukirsti grupę varžovo akmenukų. Tokia kombinacija „Go“ partijose gana dažna. Kadangi „kopėčios“ – paprasta, pasikartojanti struktūra, neseniai pradėję žaisti asmenys netrunka išmokti ekstrapoliuoti ir išsiaiškinti, „kopėčios“ bus sėkmingos, ar ne. Bet programai „AlphaGo Zero“, kuri nemoka ekstrapoliuoti, tad pusiau atsitiktine tvarka eksperimentuoja su naujais ėjimais, šiai sąvokai perprasti prireikė daugiau laiko, nei tikėtasi.

Pakopa po pakopos

Viską pasvėrus, savarankiškas mokymasis, užuot pasikliovus žmonių pagalba, atrodė daug pranašesnis. Pavyzdžiui, žaidime naudojamos specialios, gerai žinomų ėjimų sekos, vadinamos joseki, dėliojamos lentos pakraščiuose. (Kadangi laikomasi scenarijaus, šios sekos primena pirmuosius ėjimus šachmatuose.) „AlphaGo Zero“ atrado standartines joseki, kurių mokomi žmonės. Taip pat išrado keletą savų sekų, kurioms vėliau ėmė teikti pirmenybę. Pasak „AlphaGo“ projektui vadovavusio Davido Silverio, atrodė, kad mašina žaidžia visai kitokiu stiliumi nei žmogus.

Gaunama programa, kuri ne tik pranoksta žmogų, bet jį įveikia triuškinamai. Žaidime „Go“ (taip pat šachmatuose ir daugelyje kitų žaidimų) meistriškumą galima vertinti remiantis Elo reitingu, kuris pagal ankstesnius žaidėjų rezultatus nurodo, kokia tikimybė vienam žaidėjui įveikti kitą. Du tokį pat Elo balą gavę žaidėjai turi lygias galimybes įveikti priešininką. Tačiau jei oponentas surinkęs 200 taškų daugiau, tikimybė jį įveikti sumažėja iki 25 proc. Ke Jie vertinamas 3661 tašku, Lee Sedolas – 3526. Pasimokiusi 40 dienų „AlphaGo Zero“ jau turėjo daugiau kaip 5000 Elo taškų, taigi už Ke Jie buvo geresnė tiek, kiek Ke Jie yra pranašesnis už entuziastingą mėgėją. Vadinasi, realiai nei Ke Jie, nei kitas žmogus neturi jokių šansų ją įveikti. Žaisdama su Lee Sedolą pirmą kartą įveikusia „AlphaGo“ versija, „AlphaGo Zero“ laimėjo 100 partijų iš 100.

Žinoma, gyvenimas neapsiriboja „Go“. „AlphaGo“ kūrėjai tikisi, kad tokius algoritmus, kaip valdantys įvairias šios programos iteracijas, bus galima taikyti atliekant kitas iš principo panašias užduotis. (Pagrindinius pirmosios „AlphaGo“ versijos algoritmus „DeepMind“ jau pritaikė padėdama „Google“ duomenų centruose naudoti mažiau elektros energijos.) Bet turint algoritmą, kuris gali mokytis be žmonių pagalbos, mašinoms galima perduoti tokius uždavinius, kurių žmonės nesupranta, kaip spręsti. Pasak D. Hassabiso, „AlphaGo“ metodas gali praversti bet kuriam darbui, kai daugybei galimų variantų persijoti reikia protinio darbo. Jis minėjo tradicinius keblius uždavinius, pavyzdžiui, išsiaiškinti, kaip susidaro galutinė, funkcionuojanti baltymų forma, kad būtų aišku, kurios molekulės turi potencialo gydyti arba tiksliai imituoti chemines reakcijas.

„DeepMind“ tikisi, kad ilgainiui mašinos taps biologinių smegenų talkininkėmis, o ne pakaitais, kaip tapo kitos technologijos nuo paieškos sistemų iki popieriaus.

Tobulėjant DI dažnai nerimaujama, kad žmogus bus nebereikalingas. „DeepMind“ tikisi, kad ilgainiui mašinos taps biologinių smegenų talkininkėmis, o ne pakaitais, kaip tapo kitos technologijos nuo paieškos sistemų iki popieriaus. Juk galų gale matydami, kaip mašina naujoviškai sprendžia uždavinį, žmonės gali būti paskatinti patys ieškoti naujų ir produktyvių krypčių. Pasak D. Silverio, „AlphaGo“ pasitarnavo ir tuo, kad istorijos ir tradicijų nestokojantį žaidimą žaidžiančius žmones privertė suabejoti senąja išmintimi ir eksperimentuoti. Po nesėkmingo susirėmimo su „AlphaGo“ Ke Jie išnagrinėjo kompiuterio ėjimus, ieškodamas idėjų. Vėliau, žaisdamas su žmonėmis, jis laimėjo 22 partijas iš eilės – tai įspūdingas pasiekimas net ir tokiam profesionalui kaip jis. Taigi prižiūrimas mokymasis gali duoti abipusės naudos.