Tehisintellekt õpib Q * bertil petma viisil, mida ükski inimene pole varem teinud

Tehisintellektil on õnnestunud petta parimate inimkonna võimalustega, kui ta on avastanud klassikalises arkaadmängus Q * bert kasutamise ja sellega jooksnud.

Ehkki tehisintellekti varasemad kordused mängiksid Q * bertit korralikult, avastab see mängu toimimise õppimisel mingil hetkel ärakasutamise, mis võimaldab tal koguda meeletuid punkte. Loomulikult, nagu iga skoorijahiga mängija, kordab ta seda protsessi, et saaks oma skoori võimalikult tõhusalt suurendada.

Allpool olevast videost näete, kuidas tehisintellekt töötab platvormidel. Alguses tundub, nagu hüppaks sihitult platvormide vahel. Selle asemel, et näha mängu edasipääsu järgmisse vooru, jääb Q * bert kinni aasasse, kus kõik selle platvormid hakkavad vilkuma - siin saab tehisintellekt seejärel tohutult punkte koguda skoorihullusega.

LOE JÄRGMINE: Üks vastuolulisemaid mängurekordeid on lõpuks diskrediteeritud

MBB vs gpt teine kõvaketas

Kuidas tehisintellekt võitis Q * bert-sõja

Purustades tiitli kõigi aegade rekordi, saavutas AI tänu evolutsioonistrateegia algoritmide programmeerimisele võimatult kõrge tulemuse. Evolutsioonistrateegiad (ES) erinevad tavapärasest tugevdavõppest (RL), mida traditsiooniline tehisintellekt kasutab, kuna seda peetakse põlvkondliku õppe tõttu laiendatavamaks.

Igale õppetsüklile viidatakse kui põlvkonnale ja see jätkab oma ülesannet seni, kuni on täidetud seatud tingimus (antud juhul kõrge tulemus). Iga järjestikuse põlvkonnaga võtab tehisintellekt omaks eelmise põlvkonna teadmised ja on seetõttu sama eesmärgi saavutamiseks ning selle ületamiseks parem. Jätkake ja saate lõpuks tehisintellekti, mis on oma ülesandes absoluutselt ületamatu. Täpselt nii juhtus siin Q * bert-skooriga.

Visandatud aastal paber , mille eelmisel nädalal avaldasid Saksamaa Freiburgi ülikooli teadlased, näib, et viga ei olnud teadaolev kogus. Tegelikult, kuigi nad pole vea leidmise üle üllatunud, on huvitav näha, kuidas tehisintellekt siis edasi läks ja õppis seda iga kord mängima, et maksimeerida oma skooripotentsiaali.

LOE JÄRGMINE: See tehisintellekt on õppinud Super Mario Brosi valdama

Vea leidmiseks pidi agent kõigepealt õppima esimese taseme peaaegu lõpule viima - seda ei tehtud korraga, vaid paljude väikeste täiustuste abil, selgitasid teadlased Register . Me kahtlustame, et koolituse ühel hetkel kohtas üks järglaste lahendus viga ja sai õdede-vendadega võrreldes palju parema hinde, mis omakorda suurendas tema panust värskendusse - tema kaal oli kaalutud keskmises kõige suurem. See viis lahenduse aeglaselt ruumi, kus üha rohkem järglasi hakkas sama viga kokku puutuma.

Me ei tea vea ilmnemise täpseid tingimusi; on võimalik, et see ilmneb ainult siis, kui agent järgib mustrit, mis näib olevat optimaalne, [näiteks kui agent raiskab aega või isegi kaotab elu]. Kui see nii oleks, oleks tavalisel RL-il viga väga keeruline leida: kui kasutate täiendavaid hüvesid, siis õpite strateegiaid, mis annavad kiiresti mingit tasu, mitte õppestrateegiaid, mis ei anna mõnda aega palju kasu ja siis äkki võita suurelt.

Vaadake seotud Dragsteri meister Todd Rogers on 35 aasta pärast just oma krooni kaotanud See tehisintellekt on õppinud Super Mario Bros 1-2 valdama juba 17 päeva Vaadake, kuidas see tehisintellekt Twitchil GTA V-s sõitma õpib

Vaatamata roboti suurepärastele tulemustele ei ütle teadlased, et see on ES-i RL-i õppimise meister. Tegelikult on mõlemal süsteemil omad probleemid ja nende kahe kombinatsiooni peetakse suures osas parimaks edasiliikumiseks.

Sama ES-meetod teiste Atari mängude puhul ei toonud enam-vähem samu positiivseid tulemusi. Teiselt poolt vastutab RL vasakult, paremalt ja keskelt plaatide purustamise eest, sealhulgas maailma parima GO mängija peksmise eest. ES-il on asjades siiski oma koht ja tegelikult on see, kuidas Nvidia teeb palju oma tehisintellekti koolitust, kuna see nõuab suuremat arvutusvõimsust, kuid saavutab paremaid tulemusi pikema aja jooksul.

Sõltumata sellest, mis saab tehisintellekti arendamise tulevikuks, pole see süsteemipettus vähemalt nii hull kui see nüüd häbitud videomängude maailmameister .

**Tehisintellekt õpib Q * bertil petma viisil, mida ükski inimene pole varem teinud**

Kuidas tehisintellekt võitis Q * bert-sõja

Huvitavad Artiklid

Windowsi versioonid, mida toetab Microsoft Edge Chromium

Kuidas lubada alglaadimist Windows 10-s

Toimetaja Valik

Kuidas Viberis kontakti blokeerida või deblokeerida

Hääl- ja kiirsuhtlusrakendus Viber on usaldusväärne alternatiiv WhatsAppile või Skype'ile – seda naudivad miljonid oma suhtlus- ja mänguvõimaluste tõttu. Saate kellegi blokeerida või deblokeerida, et takistada või lubada tal endaga ühendust võtta. Kui sa

Sildiarhiiv: kukkumine 4

Microsofti Windows XP x64 väljaande ülevaade

Tundub, et see on saabunud aeg, kuid AMD64 platvormi jaoks mõeldud Windows XP x64 Edition (ja Inteli samaväärne versioon) on lõpuks jõudnud RC1 (Release Candidate 1) etappi. Oleme seda juba üle aasta oodanud

Kuidas muuta Venmo tehingut privaatsest avalikuks

https://www.youtube.com/watch?v=QG6bTq1A8KM Venmo on lihtne makseteenus, mis võimaldab inimeste vahel kiireid tehinguid teha. PayPali omanduses on see mugav viis rahaliste vahendite ülekandmiseks sõprade ja pere vahel. Kuigi saate kasutada

6 parimat virtuaalreaalsuse filmi, mida vaadata (2024)

Teie VR-peakomplekti parimate filmide hulka kuuluvad The ISS Experience, Vader Immortal ja palju muud.

Mängurežiimi märguannete lubamine või keelamine Windows 10-s

Kuidas lubada või keelata mängurežiimi märguandeid Windows 10-s - nad teavitavad teid, et mängurežiim on rakendatud teie mängitavale mängule.

Alexas sisselogimise keelamine või väljalülitamine

Amazon Alexa Drop-In funktsioon on olnud mõnevõrra poleemiline, kuna see esimest korda paar aastat tagasi kasutusele võeti. Nagu nimigi ütleb, võimaldab see funktsioon kõigil teie Alexa toega seadmesse ette teatamata sisse logida. Vanemad võivad leida