Miért van az agynak jutalom-előrejelzési hiba?

Dopamin, és a visszacsatolás művészete

Hitel: Pixabay

A modern idegtudomány mély sikertörténete az az elmélet, miszerint a dopamin idegsejtek előrejelzési hibát jeleznek, azt a hibát, amely a várt jutalom és mire jutott.

Sikere mélyen halad. Ezt alátámasztják az idegsejtek kirúgásának, a dopamin felszabadulásának és az fMRI-ben észlelt véráramlásnak az egymással összehangolt bizonyítékai. Ezeket a bizonyítékokat különféle fajokon gyűjtötték össze, az emberektől, majmoktól, patkányoktól és a méhektől. Sőt, okozati bizonyítékok vannak arra is, hogy a dopamin idegsejtek tűzre történő kényszerítése az agyban hibajeleket küld, melyeket az állatok viselkedésében láthatunk, akiknek a dopamin idegsejteket játsszák. Az elmélet összekapcsolja az adatokat az emberi viselkedés skálájáról az egyes neuronok szintjére. Az agy sok elméletétől eltérően ez az elemzés megfelelően kiszámítható, és több, nem triviális előrejelzést tesz, amelyek igaznak bizonyultak. A dopamin és az előrejelzések hibái szorosan összefonódnak.

De ez az intim kapcsolat nagyobb kérdést vet fel, de ritkán fogalmaz meg. Teljesen lehetséges egy olyan agy felépítése, amely hibákat tanul meg, anélkül, hogy kifejezetten ábrázolná a hibát az agyban. Akkor miért van az agynak egy hibajel a jutalomért?

A kérdés megértéséhez először kissé tudnunk kell magáról az előrejelzési hibaelméletről. Az elmélet szerint a dopamin idegsejtek váratlanul jó dolgokra vezetnek. Ha hirtelen megérintlek téged és átadok neked egy édességet, a dopamin idegsejtjei pingolnak! az édes.

Ha továbbra is a vállára kopogtatom, és édességet adok neked, akkor a dopamin idegsejtjei nem akarnak édességet pingolni - jó az édesség elérése, de ez már nem váratlan (és őszintén szólva inkább inkább tiszteltem a személyes teredet a kicsivel több). Ehelyett a dopamin neuronok ping! maga a csap számára. Ez az okos bit: a neuron pingol! mivel a vállon lévő csap most megbízhatóan jósolja, hogy édesség jön (jó dolog), de ez váratlan, mert nem tudja, mikor érkezik a csap - tehát a vállon lévő csap váratlanul jó dologmá válik.

Az elmélet azt is mondja, hogy a dopamin idegsejteket, akárcsak az embereket, mélyen idegesítik rutinjaik megsértése. Miután megállapítottuk ezt a bizalmi viszonyt - ha többször megcsaptam téged a vállára, és legalább egy sor édességet kiveszek a társadalmi normák ebből a megsértéséből - mi történik, ha megérinti a vállát, és nem ad neked édességet? A dopamin idegsejtjei ezután teljesen leállnak, egy pillanatra hagyja abba a tüzet.

Röviden: a dopamin neuronok gyors jelet küldenek, amely a jutalom előrejelzésében mind a három lehetséges hibát lefedi: a jutalom a vártnál jobb volt (pozitív hiba); hogy a jutalom pontosan a vártnál volt (hiba nélkül); vagy hogy a jutalom kevesebb volt a vártnál (negatív hiba). Mindezt felcímkézhetjük a tudósok által kedvelt kínos vegyes főnevek egyikével: a dopamin neuronok jutalombecslési hibát adnak.

A dopamin és a „jutalom-előrejelzési hiba” közötti kapcsolat gyökere az AI ágazatában, az úgynevezett megerősítő tanulásban (technikai szempontból ez a gépi tanulás egyik ága, de mivel most már mindenki AI-nek van megjelölve, beleértve a FitBit-et, amelyben meglehetősen biztos vagyok) csak egy hevederrel rendelkező gyorsulásmérő, akkor AI ez). A megerősítő tanulás olyan algoritmusok felhalmozása, amelyek alapján valamit meg lehet tanulni, ha azt mondják, hogy a saját előrejelzései helytelenek vagy helyesek voltak.

A megerősítés elsajátításának valamennyi klasszikus algoritmusa kifejezetten jelzi a hibát annak előrejelzésében, hogy mennyire értékes lesz a választás (ahol az algoritmusok névleges hívása banditákat, időbeli különbség tanulást, Q tanulást, SARSA-t vagy színészkritikusot tartalmaz). Ez a jel a következő esemény becsült értéke és a következő esemény tényleges értéke között - ahol az értéket a jövőbeli jutalom várható összege méri. A megerősítéses tanulás varázsa az, hogy egyszerűen minimalizálva ezt a hibát a világ minden következő dolgának előrejelzett és valós értéke között, a mesterséges ágensek rendkívül összetett események sorozatait tanulhatják meg, mint például a világon való navigálás vagy a futtatás módja.

És ez a dopaminelmélet számítási része: hogy a dopamin neuronok gyors reakciói csak a megerősítő tanulási algoritmusok előrejelzési hibája. Hogy ezek a hibák a következő esemény becsült és tényleges értéke között. És hogy ők szoktak tanulni. Ennek az elméletnek a kulcsa nemcsak az, hogy a dopamin idegsejtek jelzik a különbséget a kapott jutalom és az elvárás között. Ez az, hogy a jelet olyan váratlan dolgokra is továbbítják, amelyek előrejelzik a jutalmat, pontosan úgy, ahogyan azt a megerősítő tanulási algoritmusok mondják.

Ez nem azt jelenti, hogy a dopamin neuronok csak ezt az előrejelzési hibát kódolják. Sok árnyalattal bír, hogy mi a dopamin idegsejt érdekli őket - egy olyan szuperhalmaz, amely túlmutat az előrejelzési hibákon. És valóban a jutalom előrejelzésében elkövetett hibák csupán a világ előrejelzéseiben az agyban létező lehetséges hibák részhalmaza (egy történet a következő alkalommal). De hogy a dopamin idegsejtek hibát kódolnak a jutalom előrejelzésében, úgy tűnik, hogy jól működő részét képezik.

(És a javasolt megfelelés a dopamin neuronok gyors reakciója és az előrejelzési hiba között igaz a kifinomultabb megerősítő tanulási algoritmusokra is, mint például Peter Dayan „utódképviselet” ötletének izgalmas újjáéledése és kiterjesztése Sam Gershman, Momennejad Ida, Kim Stachenfeld által. és a munkatársak: Az utódképviseleti fiókban nem egy egyszerű hiba található meg az előrejelzésed és a kapott eredmények között, hanem egy teljes hibavektor a világ különböző vonásainak megváltoztatására vonatkozó előrejelzésekben - amelyek közül az egyik jutalom. (Gershman és munkatársai) megmutatja, hogy a gyors dopamin idegsejtekre adott válaszok mint ezeknek a hibáknak a gondolkodása magyarázza a dopamin idegsejtekkel kapcsolatos legújabb zavaró eredményeket, amelyek gyors jeleket küldenek a világ olyan változásaira, amelyek nem jutalmazzák.)

De ehhez a megfelelési twixt ideg és az elméleti hibajel létezéséhez nem volt szükség. A megerősítéses tanulás algoritmusai az állati viselkedés megfigyelésein alapulnak. És nagyon sikeresek lehetnek: az állatok, beleértve az embereket is, gyakran úgy viselkednek, mintha egy előrejelzési hibát használnának jutalomként a világ megismerése érdekében. De csak azért, mert a viselkedést a jutalom előrejelzésének hibájával írhatjuk le, nem következik, hogy az agyban ilyen kifejezett hibajelnek kell lennie.

Mert teljesen lehetséges egy olyan rendszer felépítése, amely megtanulja a világot olyan visszacsatolás felhasználásával, amelynek nincs kifejezett jele az előrejelzések hibájáról. Ezeknek a rendszereknek a példája egy bayes-i ügynök, amely a jövőbeli dolgok valószínűségét ismeri el, nem pedig a bizonyosságot.

Egy ilyen bayes-i ügynök bizonytalanságot jelenthet az A cselekvés értékének szempontjából. Ezt a bizonytalanságot egy valószínűség-eloszlás kódolja - amelyet P (érték | A művelet) írhatunk - az A művelet lehetséges értékeire. Például nagy a valószínűsége annak, hogy az A művelet végrehajtása alacsony értékű, és alacsony valószínűséggel magas lesz; Vagy fordítva; vagy valami sokkal bonyolultabb.

Elveszítjük a szegény Bayes-ügynököt a képzeletbeli unalmas világban. Egész életében azt választja, hogy a három kart melyik kart húzza, hogy újra és újra megnyerjen egy érmét. Mivel az érme nyerésének esélyei a három kar között különböznek, ezért az ügynöknek ki kell dolgoznia, hogy mit húzzon, hogy hosszú távon a legtöbb érmét megszerezze. Három kar, tehát három lehetséges művelet, tehát három megfelelő valószínűségi eloszlás az egyes karok értékéhez. Az ügynök minden fordulóban kiválaszt egy emelőt a valószínűségi eloszlás alapján - talán inkább azt választja, amelyik jelenleg a legnagyobb valószínűséggel nyújtja a legnagyobb jutalmat -, és figyeli az érmét.

Érme vagy sem, az ügynök az eredményt használja a valószínűség-eloszlás frissítésére. Egy érme azt bizonyítja, hogy a kar jó, tehát az ügynök növeli annak valószínűségét, hogy a kar meghúzása magas értékű; egyetlen érme sem bizonyítja, hogy a kar nem jó, tehát az ügynök növeli annak valószínűségét, hogy a kar meghúzása alacsony értékű. Akárhogy is, az ügynöknek most már több információja van a választott akcióról, függetlenül attól, hogy jó vagy rossz eredmény volt-e. Az adott művelet valószínűségi eloszlását frissítik, hogy tükrözze ezt az információt az eloszlás paramétereinek megváltoztatásával.

Nincs hibajelzés. Az ügynök a világgal kapcsolatos visszajelzések alapján tanul, és megtanulásával döntéseket hozhat, de nincs előrejelzési hibajel. Persze, hogy felépíthetnénk egyet - az érme megérkezése előtti és utáni valószínűség-eloszlások közötti különbség kiszámításával -, de nincs rá szükségünk. A hibajel hallgatólagos.

Ez ismét viselkedés, még nem az agy. De sokan úgy vélik, hogy az agy valószínűségi eloszlásokkal reprezentálja a világot; és valószínű elméletek vannak arra, hogy hogyan reprezentálhatjuk és frissíthetjük a valószínűség-eloszlást neuronok segítségével. Ezek arra engednek következtetni, hogy a valószínűség-eloszlást képviselő neuronpopuláció égetését beállítják. És ezt megteszi úgy, hogy beállítja a bemenetek erősségét az idegsejtekbe (függetlenül attól, hogy ezek a bemenetek a populáción belül vagy kívülről származnak-e). Az agynak tehát csak egy jelre van szüksége arról, hogy jutalom történt-e vagy sem, és ezt használja a kapcsolatok beállításához. Nincs szükség bonyolult jelzésre az előrejelzések hibájáról.

Tehát az agy megtanulhat a megerősítésről, kifejezett jelzés nélkül vagy anélkül, hogy hibákat vet fel az erősítés előrejelzésekor. De az agynak van egy explicit hibajele, amelyet a dopamin neuronok kódolnak. Mit mond ez nekünk?

Azt hiszem, három érdekes ötletet mond nekünk az agy működéséről. Azt hiszem - teljesen felkészülve arra, hogy tévedjen ebben, és létezik egy vízálló érv, hogy miért nem építhetsz agyat kifejezett jelzés nélkül a jutalom előrejelzése során felmerülő hibákról.

Az első gondolat az, hogy egy explicit hibajel jelenléte magában foglalja a világ egyszerű ábrázolását az agyban. Egy úgynevezett „modellmentes” reprezentáció, amely nem reprezentálja a művelet minden lehetséges eredményét, és valószínűleg nem is használja a valószínűséget. Gyorsan hozzáférhető keresési táblázat az akciók értékeiről, amelyet akkor választanak, ha az idő sürget, vagy a világ nem változik. Van néhány jó ötletünk arról, hogy hol élnek az ilyen reprezentációk az agyban. És az ilyen egyszerű reprezentációk minden formája, amelyről ismertünk, kifejezett jelet igényel a tényleges és a becsült értékek közötti hibára vonatkozóan.

A második ötlet az, hogy mi a megerősítéses tanulás egyik fogalma, az agy két folyamata. A megerősítéses tanulás egyik koncepciója az, hogy az előrejelzés hibájával módosítja a művelet értékére vonatkozó becslését. Miért van ez a két folyamat az agyban? Mivel az agy valószínűleg külön akarja ellenőrizni a rövid és hosszú távú változásokat az akció értéke becsléseiben. És ha egy explicit hibajelet hordoz a dopamin, ez mindkettőt megteheti egy jelöléssel.

Hosszú távú változások elérése érdekében módosíthatjuk egy akció értékét becslésünkben azáltal, hogy felfelé vagy lefelé megváltoztatjuk az akciót ábrázoló neuronok kapcsolatainak erősségét. Értékbecslésünk ilyen módon történő módosítása megváltoztatja a hosszú távú viselkedést. És valóban azt gondolják, hogy a gyors dopamin jel szabályozza, hogy megengedhető-e az agy egyes kapcsolatainak megváltoztatása erősségeiknek és milyen irányba. Itt szükség van a hibajelzés jelére, hogy megmondja a kapcsolatoknak, hogy melyik irányt kell megváltoztatni.

De az agy nem feltétlenül igényli minden egyes visszajelzést, hogy megváltoztassa a kapcsolatot az idegsejtek között. Ez olyan helyre zárja be, ahonnan nehéz lehet helyreállni. Valójában, amikor megpróbáljuk megváltoztatni ezeknek a kapcsolatoknak az erősségeit azáltal, hogy stimuláljuk a neuronbemenetet, néhányuk figyelemre méltóan nehéznek bizonyulhat. Ez felveti annak a lehetőségét, hogy rövid távon az agy esetleg meg akarja fedezni fogadásait, ha meg akarja változtatni egy akció értékére vonatkozó becslését anélkül, hogy bármilyen kapcsolat erőssége megváltozna. És ezt megteheti úgy, hogy megváltoztatja az idegsejtek reagálási képességét. Ha az A művelethez való neuront nagyobb valószínűséggel lő, akkor megnövelte annak várható értékét; és fordítva. Találd ki, hogy az agy melyik adójának sok száz papíra van, amely megmutatja, hogy megváltoztatja az akciót szabályozó idegsejtek reagálóképességét? Igen, dopamin.

Összefoglalva, itt az érv az, hogy létezik az explicit hibajel, amely lehetővé teszi az agy számára, hogy két előre meghatározott skálán ellenőrizze a becsült érték változásait. Tegye ezt egy dopamin által kódolt hibajel felhasználásával: mind hosszú távon lehetővé teszi a kapcsolat erősségének megváltoztatását, mind pedig rövid távon megváltoztathatja a reagáló neuronok működését.

A harmadik ötlet az, hogy az agyban egy explicit hibajel az evolúciós esemény. A visszajelzésből való tanuláshoz a rendszer felépítése könnyebb egy explicit hibajel segítségével, mint a valószínűségek ábrázolásával egy neuroncsoporton belül. Az ókori állatoknak valószínűleg volt egy vagy két idegsejtük, amelyek a dopamint vagy hasonló valamit hasonlóan elemezték a mozgásuk ellenőrzésének részeként. Rengeteg gerinctelen állat található meg, mindössze néhány ezer idegsejt mellett, amelyekben a dopamin megváltoztatja a mozgást, megváltoztatva az idegsejtek reagálásának a bemeneti jeleire. Mivel a dopaminrendszer a helyén van, az evolúció legkevésbé ellenálló képessége az volt, hogy ezt a sugárzott jelet együtt választotta, hogy hibát követően megváltoztassa az idegsejtek közötti kapcsolást. Ez valószínűleg könnyebbnek tűnik, mint ugyanabból a nyers kezdetekből, amikor először elosztott rendszert fejlesztenek olyan információk megjelenítésére, amelyek nem igényelnek kifejezett hibajelet.

Az elmélet hozzájárulása az idegtudományhoz annyira annyit mutat, hogy megmutatja, amit az agy nem vagy nem tud tenni, mint azt, amit képes. Igen, ha bármilyen önkényes elképzelést megengedünk, ez a hely gyakorlatilag végtelen: elméletek, amelyek azt mutatják, hogy az agy nem használ eperzseléket neurotranszmitterként, vagy nem számít egy boríték hátulján és egy tompa ceruzával, nem hasznosak.

De itt egy kifejezett hibajelzést találunk az agyban, és ez kizárja a visszajelzésből történő tanulás teljes sorozatát, és be is zárja azokat. A dopamin jutalombecslés-hibaelmélete annyira elmondja nekünk, amit nem tesz , mint mi. A villás utak kertjében örülnünk kell valamilyen segítségnek - és kevés kerti ösvény bonyolultabb, mint az agy.

Többet akar? Kövess minket a Spike-nál

Twitter: @markdhumphries