Tehisintellektil on õnnestunud petta parimate inimkonna võimalustega, kui ta on avastanud klassikalises arkaadmängus Q * bert kasutamise ja sellega jooksnud.
Ehkki tehisintellekti varasemad kordused mängiksid Q * bertit korralikult, avastab see mängu toimimise õppimisel mingil hetkel ärakasutamise, mis võimaldab tal koguda meeletuid punkte. Loomulikult, nagu iga skoorijahiga mängija, kordab ta seda protsessi, et saaks oma skoori võimalikult tõhusalt suurendada.
Allpool olevast videost näete, kuidas tehisintellekt töötab platvormidel. Alguses tundub, nagu hüppaks sihitult platvormide vahel. Selle asemel, et näha mängu edasipääsu järgmisse vooru, jääb Q * bert kinni aasasse, kus kõik selle platvormid hakkavad vilkuma - siin saab tehisintellekt seejärel tohutult punkte koguda skoorihullusega.
LOE JÄRGMINE: Üks vastuolulisemaid mängurekordeid on lõpuks diskrediteeritud
MBB vs gpt teine kõvaketas
Kuidas tehisintellekt võitis Q * bert-sõja
Purustades tiitli kõigi aegade rekordi, saavutas AI tänu evolutsioonistrateegia algoritmide programmeerimisele võimatult kõrge tulemuse. Evolutsioonistrateegiad (ES) erinevad tavapärasest tugevdavõppest (RL), mida traditsiooniline tehisintellekt kasutab, kuna seda peetakse põlvkondliku õppe tõttu laiendatavamaks.
Igale õppetsüklile viidatakse kui põlvkonnale ja see jätkab oma ülesannet seni, kuni on täidetud seatud tingimus (antud juhul kõrge tulemus). Iga järjestikuse põlvkonnaga võtab tehisintellekt omaks eelmise põlvkonna teadmised ja on seetõttu sama eesmärgi saavutamiseks ning selle ületamiseks parem. Jätkake ja saate lõpuks tehisintellekti, mis on oma ülesandes absoluutselt ületamatu. Täpselt nii juhtus siin Q * bert-skooriga.
Visandatud aastal paber , mille eelmisel nädalal avaldasid Saksamaa Freiburgi ülikooli teadlased, näib, et viga ei olnud teadaolev kogus. Tegelikult, kuigi nad pole vea leidmise üle üllatunud, on huvitav näha, kuidas tehisintellekt siis edasi läks ja õppis seda iga kord mängima, et maksimeerida oma skooripotentsiaali.
LOE JÄRGMINE: See tehisintellekt on õppinud Super Mario Brosi valdama
Vea leidmiseks pidi agent kõigepealt õppima esimese taseme peaaegu lõpule viima - seda ei tehtud korraga, vaid paljude väikeste täiustuste abil, selgitasid teadlased Register . Me kahtlustame, et koolituse ühel hetkel kohtas üks järglaste lahendus viga ja sai õdede-vendadega võrreldes palju parema hinde, mis omakorda suurendas tema panust värskendusse - tema kaal oli kaalutud keskmises kõige suurem. See viis lahenduse aeglaselt ruumi, kus üha rohkem järglasi hakkas sama viga kokku puutuma.
Me ei tea vea ilmnemise täpseid tingimusi; on võimalik, et see ilmneb ainult siis, kui agent järgib mustrit, mis näib olevat optimaalne, [näiteks kui agent raiskab aega või isegi kaotab elu]. Kui see nii oleks, oleks tavalisel RL-il viga väga keeruline leida: kui kasutate täiendavaid hüvesid, siis õpite strateegiaid, mis annavad kiiresti mingit tasu, mitte õppestrateegiaid, mis ei anna mõnda aega palju kasu ja siis äkki võita suurelt.
Vaadake seotud Dragsteri meister Todd Rogers on 35 aasta pärast just oma krooni kaotanud See tehisintellekt on õppinud Super Mario Bros 1-2 valdama juba 17 päeva Vaadake, kuidas see tehisintellekt Twitchil GTA V-s sõitma õpib
Vaatamata roboti suurepärastele tulemustele ei ütle teadlased, et see on ES-i RL-i õppimise meister. Tegelikult on mõlemal süsteemil omad probleemid ja nende kahe kombinatsiooni peetakse suures osas parimaks edasiliikumiseks.
Sama ES-meetod teiste Atari mängude puhul ei toonud enam-vähem samu positiivseid tulemusi. Teiselt poolt vastutab RL vasakult, paremalt ja keskelt plaatide purustamise eest, sealhulgas maailma parima GO mängija peksmise eest. ES-il on asjades siiski oma koht ja tegelikult on see, kuidas Nvidia teeb palju oma tehisintellekti koolitust, kuna see nõuab suuremat arvutusvõimsust, kuid saavutab paremaid tulemusi pikema aja jooksul.
Sõltumata sellest, mis saab tehisintellekti arendamise tulevikuks, pole see süsteemipettus vähemalt nii hull kui see nüüd häbitud videomängude maailmameister .