Egymástól tanulnak a jövő robotjai

Fotó: KOBAL / THE PICTURE DESK

-

Ha egy virtuális robot egy másiknak megtanítja, hogyan nyerjen videojátékokban, előbb-utóbb egy valódi takarító robot is képes lesz helyettesének elmagyarázni a sepregetést. Játszani ugyan szórakoztató, de ezúttal sokkal több puszta szórakozásnál – a tanulás automatizálása a robotika egyik legfontosabb kutatási területe.


Hogyan adhatnak számítógépek tanácsokat egymásnak? Miként taníthatják meg egymást különféle képességek elsajátítására? A Washington Állami Egyetem kutatói ezekre a kérdésekre kerestek választ, és dolgoztak ki eredeti módszert. Virtuális robotokat – szoftverágenseket – edzettek, amelyek Pacmant és Starcraftot játszottak. A példát a valóságból lesték el: tanárok és diákok interakcióit utánozták. A diákok elakadtak menet közben, nem tanultak bele a játékokba. A tanárok feladata abból állt, hogy segítsék a bukdácsoló nebulóprogramokat. A kísérleteket vezető Matthew E. Taylor szerint olyan jól sikerült megtaníttatniuk a leckét, hogy idővel felülmúlták tanítóikat.


Tanulj, mert buta maradsz!

A kutatók a legáltalánosabbnak tartott gépi tanulási formát, a megerősítéses tanulást tesztelték. Az ágensek tanulási folyamatában a visszacsatolás a legfontosabb tényező. Ha nincs visszacsatolás, nem tudják eldönteni például a következő lépést. Tudniuk kell, hogy nyeréskor jó, vesztéskor rossz történik. Visszacsatolásra, annak is az egyik típusára, jutalomra vagy megerősítésre van szükségük. Egyes közegekben a folyamat végén, másokban lépésenként jön a megerősítés, amely nem mindig jutalom, mert negatív is lehet. A tanulás célja, hogy a jutalom maximalizálásához szükséges stratégiát kidolgozza a program. „Az állatokba be van építve, hogy a fájdalom és az éhség „negatív” jutalom, míg a gyönyör és az élelem pozitív. Az állatpszichológiát kutatók 60 éve intenzíven tanulmányozzák a megerősítéses tanulást” – írja Stuart Russell és a Google-nál dolgozó Peter Norvig Mesterséges intelligencia – modern megközelítésben  című könyvükben, amely a modern számítástudomány egyik kulcsműve. A tanárokat úgy programozták, hogy megmondják a diákoknak, mikor cselekedjenek. Pontosan tudniuk kellett, mikor adjanak tanácsot, mikor ne. Ha nem adnak útmutatást, nem is tanítanak. Ha örökösen javaslatokkal állnak elő, a diák ráun, elege lesz belőle, nem hallgat rájuk. Ugyanúgy tesz, mint egy igazi iskolás. Nem tanulja meg, hogyan múlja felül mesterét, nincs megerősítés, nincs jutalom. Ez az algoritmus legnagyobb újdonsága: egyrészt tanácsadásra, másrészt a tanács következményeinek felmérésére tervezték. Arra, hogy megállapítsa, mikor éri el egy-egy tanács a legkedvezőbb hatást. A kutatók komplex tantervet akarnak kidolgozni: ágenseik egyszerű feladatokkal kezdenek, lépésről lépésre jutnak el a bonyolultabbak sikeres kivitelezéséhez nélkülözhetetlen képességekig. Egyelőre azonban szó sincs arról, hogy bármilyen potenciális veszélyt hordozó képességre, tudásra tennének szert. Taylor úgy fogamlazott, hogy még nagyon ostobák az ágenseik. Még a legfejlettebb programokat is könnyen össze lehet zavarni, ebből az állapotból pedig csak lassan jutnak ki.


Virtuáliából a valóságba

A kutatók hamarosan valódi robotokra is alkalmazzák a módszert. Ez azért szükséges, mert robotikai „robbanás” előtt állunk, tíz-húsz éven belül hétköznapjaink fontos gépkellékei lesznek. Ha pedig elterjednek, legjobb, ha egymástól tanulnak, nem minket idegesítenek azzal, hogy ezt vagy azt nem értik. Ha egy robot megismeri környezetét, a környezetében élő emberek szokásait, preferenciáit, helyettesének is birtokolnia és hasznosítania kell ugyanezeket az információkat. Ha más robotok jönnek, nekik is. Elvileg a legegyszerűbb, ha az öregebb „agyát” a fiatalabba töltjük át, csakhogy könnyen előfordulhat, hogy a hardver vagy a szoftver, vagy egyik sem működik az új modellben. Rendszerhibát és összeomlást megelőzendő, jobb, ha tudását adja át. Aztán a tanítvány túlszárnyalja a mestert, a mester pedig nyugállományba vonulhat. Taylor elmondta, hogy más kutatóközpontokban is próbálkoznak hasonlóval, viszont az ő megoldásuk azért egyedi, mert egymástól nagyon különböző robotokban gondolkoznak. Ha alig lenne különbség, tökéletesen működne az ismeretek átmásolása. A cél pontosan az, hogy a tanulók és a tanárok egyáltalán ne hasonlítsanak egymásra. Idővel akár embereket is taníthatnak. Öt-tízéves intervallumra terveznek, háromféle tanulástípushoz (robot-robot, robot-ember, ember-robot) dolgozzák ki az alapokat, kereteket.