Hoofd Streamingdiensten AI leert vals te spelen bij Q * bert op een manier die geen mens ooit eerder heeft gedaan

AI leert vals te spelen bij Q * bert op een manier die geen mens ooit eerder heeft gedaan



Een AI is erin geslaagd vals te spelen met het beste dat de mensheid te bieden heeft na het ontdekken van een exploit in het klassieke arcadespel Q * bert en ermee te rennen.

Terwijl eerdere iteraties van de AI Q * bert correct zouden spelen, ontdekt het op een bepaald moment bij het leren van hoe het spel werkt een exploit waardoor het krankzinnige punten kan verzamelen. Zoals elke speler die op een score jaagt, herhaalt hij het proces natuurlijk, zodat hij zijn score op de meest effectieve manier kan verhogen.

Je kunt de AI zich een weg banen door platforms in de onderstaande video. In eerste instantie lijkt het alsof het doelloos tussen platforms springt. In plaats van het spel te zien vorderen naar de volgende ronde, komt Q * bert vast te zitten in een lus waar al zijn platforms beginnen te knipperen - hier kan de AI dan op scorefunctie gaan en enorme punten verzamelen.

LEES VOLGENDE: Een van de meest controversiële game-records is eindelijk in diskrediet gebracht

hoe een account op netflix te verwijderen

Hoe de AI de Q * bert-oorlog won

De AI verbrak het record voor de titel en behaalde een onmogelijk hoge score dankzij de algoritme-programmering van de evolutiestrategie. Evolutiestrategieën (ES) verschillen van het gebruikelijke reinforcement learning (RL) dat traditionele AI gebruikt, omdat het als schaalbaarder wordt beschouwd vanwege het generatieleren.

Elke leerlus wordt een generatie genoemd en gaat door met zijn taak totdat aan een bepaalde voorwaarde is voldaan (in dit geval een hoge score). Bij elke volgende generatie absorbeert de AI de kennis van de vorige generatie en is daardoor beter in staat om hetzelfde doel te bereiken en te overtreffen. Blijf doorgaan en je zult eindigen met een AI die absoluut ongeëvenaard is in zijn taak. Dat is precies wat hier gebeurde met de Q * bert-score.

Geschetst in de krant , vorige week gepubliceerd door onderzoekers van de Universiteit van Freiburg, Duitsland, lijkt het erop dat de bug geen bekende hoeveelheid was. Hoewel ze niet al te verbaasd zijn over het vinden van de bug, is het interessant om te zien hoe de AI vervolgens doorging en leerde deze elke keer dat hij speelde te exploiteren om zijn scorepotentieel te maximaliseren.

LEES VOLGENDE: Deze kunstmatige intelligentie heeft geleerd om Super Mario Bros onder de knie te krijgen

Om de bug te vinden, moest de agent eerst leren om het eerste niveau bijna te voltooien - dit werd niet in één keer gedaan, maar met behulp van veel kleine verbeteringen, legden de onderzoekers uit aan Het register . We vermoeden dat een van de oplossingen van het nageslacht op een bepaald punt in de training de bug tegenkwam en een veel betere score kreeg in vergelijking met zijn broers en zussen, wat op zijn beurt zijn bijdrage aan de update verhoogde - het gewicht was het hoogste in het gewogen gemiddelde. Hierdoor kwam de oplossing langzaam in de ruimte waar steeds meer nakomelingen dezelfde bug begonnen tegen te komen.

We weten niet de precieze omstandigheden waaronder de bug verschijnt; het is mogelijk dat het alleen verschijnt als de agent een patroon volgt dat suboptimaal lijkt, [bijvoorbeeld wanneer de agent tijd verspilt of zelfs een leven verliest]. Als dat het geval was, dan zou het buitengewoon moeilijk zijn voor standaard RL om de bug te vinden: als je incrementele beloningen gebruikt, leer je strategieën die snel een beloning opleveren, in plaats van strategieën te leren die een tijdje niet veel beloningen opleveren en dan plotseling groot winnen.

Zie gerelateerd Dragsterkampioen Todd Rogers heeft zojuist na 35 jaar zijn kroon verloren Deze kunstmatige intelligentie heeft 17 dagen lang Super Mario Bros 1-2 leren beheersen Kijk hoe deze AI leert rijden in GTA V op Twitch

Ondanks de geweldige resultaten van de bot, zeggen de onderzoekers echter niet dat dit een zaak is om ES-leren boven RL te verdedigen. In feite hebben beide systemen hun eigen problemen en een combinatie van de twee wordt grotendeels gezien als de beste optie om vooruit te komen.

Dezelfde ES-methode op andere Atari-games leverde nergens dezelfde positieve resultaten op. Aan de andere kant is RL verantwoordelijk voor het breken van records links, rechts en in het midden, inclusief het verslaan van 's werelds beste GO-speler. ES heeft echter nog steeds zijn eigen plaats in de dingen, en het is eigenlijk hoe Nvidia veel van zijn AI-training uitvoert, omdat het meer rekenkracht vereist, maar betere resultaten behaalt over een langere periode.

Ongeacht op welke manier de toekomst voor AI-ontwikkeling wordt, deze bot die het systeem bedriegt, is in ieder geval niet zo slecht als dit nu in ongenade gevallen wereldkampioen videogames .

Interessante Artikelen

Editor'S Choice

Hoe u uw naam kunt wijzigen in Zelle
Hoe u uw naam kunt wijzigen in Zelle
Zelle is een van de toonaangevende online betaalapps in de VS. Wanneer u zich op Zelle registreert, moet u deze verbinden met een bankrekening, een telefoonnummer en ook een e-mailadres opgeven. Met Zelle kun je een
Hoe een MAC-adres te vinden met WireShark
Hoe een MAC-adres te vinden met WireShark
Als gratis en open-source pakketanalysator biedt Wireshark veel handige functies. Een daarvan is het vinden van MAC-adressen (Media Access Control), die u meer informatie kunnen geven over verschillende pakketten op een netwerk. Als je nieuw bent bij
De beste kabelmodem/routercombinaties van 2024
De beste kabelmodem/routercombinaties van 2024
Een goede kabelmodem/router-combinatie is eenvoudig in te stellen, bespaart geld en biedt wifi in het hele huis. Onze experts hebben enkele van de beste opties getest.
Een afbeelding spiegelen in GIMP
Een afbeelding spiegelen in GIMP
Heb je ooit geprobeerd een afbeelding om te draaien in GIMP? Of je wilde het wel, maar wist niet zeker hoe? GIMP is een gratis, open-source afbeeldingseditor die op meerdere platforms werkt. Met eersteklas tools en een verscheidenheid aan plug-ins,
Alle mogelijke manieren om lint in Verkenner in Windows 10 te verbergen of weer te geven
Alle mogelijke manieren om lint in Verkenner in Windows 10 te verbergen of weer te geven
Laten we eens kijken hoe u het Explorer-lint in Windows 10 kunt uitschakelen. Er zijn verschillende methoden om er vanaf te komen.
Wat te doen als u de Vizio TV-knoppen niet kunt vinden
Wat te doen als u de Vizio TV-knoppen niet kunt vinden
Over het algemeen zijn Vizio-tv's van zeer hoge kwaliteit en een uitstekende keuze voor consumenten die willen upgraden van hun oude tv-systeem. Een van de ontwerpkeuzes van Vizio veroorzaakt echter verwarring bij sommige gebruikers. Veel eigenaren van Vizio denken dat hun tv
Hoe Windows 10 Defender te verwijderen
Hoe Windows 10 Defender te verwijderen
Als het gaat om ingebouwde antivirus, heeft Microsoft's Defender gemengde beoordelingen ontvangen. Veel gebruikers wenden zich liever tot oplossingen van derden voor bescherming. Als u een van deze mensen bent en wilt weten hoe u dit kunt verwijderen