Az OpenAI új megközelítése az egylépéses utánzásról, egy pillanatra az AI jövőjében

Egylövésű utánzás tanulása Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Az OpenAI kutatói május 16-án videókat osztottak meg egyik projektjükről, két fontos dokumentummal együtt, amelyek a jelenlegi AI fejlesztés három legfontosabb szűk keresztmetszetére mutatnak megoldásokat: meta-tanulás, egyképes tanulás és automatizált adatgenerálás. Előző bejegyzésemben írtam egy cikket, amely az egylépéses tanulás lenyűgöző problémájának szentelt, tehát itt van. Először nézze meg a kiadott videót, amely magyarázza elképesztő munkájukat:

Ebben a videóban egykaros fizikai robot látható, amely kockákat egymásra helyez. Ismerve azokat az összetett feladatokat, amelyeket az ipari robotok jelenleg képesek elvégezni, ha a kutató nem próbálta megmagyarázni, mi folyik, sok fiókban ez nagyon aláássa a feladatot. Kontrollált környezetben a feladat egyszerű, az eljárási (keményen kódolt) megközelítések már megoldották ezt a problémát, ígéretes és forradalmi szempontból az az, hogy az alatta álló általános keret mennyire képes többszörös, összetettebb és adaptálódó viselkedésre méretezni a zajosabb környezetben.

Az ember és a magasabb állatok közötti gondolkodásbeli különbség, bármennyire is nagy, bizonyosan fokos és nem jellegzetes.
- Charles Darwin

Analógia útján ez a cikk egyértelmű bizonyíték arra, hogy a kognitív rendszerekben mutatkozó különbségek a jelenlegi megtestesített AI (a fizikai rendszerek mesterséges intelligenciája) és a 22. század robotjai között nagyságrendű és nem jellegűek. Az ImageNet verseny * óta * a mély tanulás kutatása virágzik, nemcsak az ideghálózat által elosztott számítás természetének módosítására, hanem új módszerek megtalálására a hálózatok felépítésére annak érdekében, hogy megismerjék egy adott feladatot. Egy ideghálózati függvény struktúrája esetén ez a szerkezet nem keményen kódolva van (nem kézzel tervezve), de a bemenetek és a kimenetek között kezdetben összekapcsolt atomi számítási egységek eredményei képesek módosítani szerkezetüket és összeköttetéseiket. A hálózat általános szerkezetének megváltoztatásával tanulja meg a meghatározott funkciót.

Ebben a cikkben egy általános keretet építettek, amely képessé teszi az ügynököket arra, hogy elvont módon reprezentálják a feladatokat, és megtanulják ezeket az ismereteket új, láthatatlan feladatokra átadni (átadni a tanulást) az új feladatnak csak egy bemutatása után (egy kép utánzat).

A feladatok

Noha a pontos építészeti megvalósítás eltérő, két feladatot példaként mutatnak be az általános megközelítés teljesítményének bemutatására.

Részecske elérése

Az első példában a rendszer színes célpont bemeneteket fogad be egy síkon és a szimulált ügynök egyetlen video-bemutatóját a megadott célhoz.

2. ábra: A robot egy 2-dimenziós erővel vezérelt ponttömeg. A feladatok családja a célpont elérése. A mérföldkő identitása feladatokonként eltérő, és a modellnek a demonstráció alapján kitalálnia kell, melyik célt kell kitűznie. (balra) a robot illusztrációja; (középen) a feladat az, hogy elérje a narancssárga mezőt, (jobbra) a feladat a zöld háromszög elérésében.

Az edzés során a rendszernek ugyanazt a feladatot (narancssárga színű) kell reprodukálnia, de egy másik konfigurációtól, a robot és a célok eltérő kiindulási helyzetével. Nem világos, hogy a tesztelés során az ügynököt olyan feladaton tesztelik-e, amelyen kiképezték (narancssárgára emelkedett), vagy olyan feladaton, amelyet még soha nem látott (például zölden elérni), vagy mindkettőn.

A kiképzett politikát új forgatókönyvek alapján értékelik, és az új demonstrációs pályákra támaszkodnak, amelyeket a képzés során még nem láttak.

Bizonyos, hogy az ügynöknek egy egyedi demonstrációból a célcélt kell következtetnie, és ismét egy másik konfigurációtól kell kezdenie. Ez azt jelenti, hogy a pontos motoros sorrendet nem lehetett volna megtanulni a tesztelés előtt, és ezt a feladat absztrakciójával (magasabb szintű strukturált ábrázolás) és a motor tervezésével kell levezetni.

Blokkolás egymásra

A második példában az ügynöknek meg kell tanulnia kötegeket (különböző színekkel azonosítva) azonos sorrendben rakni, mint az egyetlen szimulált demonstrációban bemutatott. Ez a szimulált demonstráció egy 3D-s fizikai motor által előállított 2D-képek sorozatát képezi, amelyben a robotok motorja és az érzékelő berendezés tulajdonságai modellezésre kerülnek.

Egylépéses politika. Egyetlen politika, amely sok feladat megoldására szolgál. Legfontosabb feladat: {abc, def}, Alsó feladat: {ab, cd, ef}

Mindkét példában a kockák kiindulási pozíciói a demonstrációban és a valódi tesztben különböznek, mindegyik feladat egy másik kiindulási helyről indul. A robot nem próbálja a kockákat cserélni, hogy azok megfeleljenek a demonstráció kezdeti helyzetének, hanem átadja a magasabb szintű feladatot - a kocka beillesztését - bármilyen állapotban is kezd.

Képzés domain randomizálás segítségével

Mindkét esetben az edzés során felhasznált összes képet szimulációval nyerik ki, tartomány-randomizálás alkalmazásával, amelyben a minták következő aspektusait véletlenszerűsítik:

A figyelmeztető objektumok száma és alakja az asztalon Az összes tárgy elhelyezése és textúrája az asztalon Az asztal, a padló, a skybox és a robot textúrája A kamera elhelyezkedése, tájolása és látótere A fények száma a helyszínen Helyzet, tájolás, és a lámpák jellemző tulajdonságai A képekhez hozzáadott véletlenszerű zaj típusa és mennyisége

Edzőkészlet a részecskék eléréséhez

Az egyre nehezebb feladatcsaládokat vesszük figyelembe, ahol a tájékozódási pontok száma 2-ről 10-re növekszik. Minden egyes feladatcsoporthoz 10000 trajektóriát gyűjtünk az edzéshez, ahol a tájékozódási pontok helyzete és a pontrobot kiindulási helye véletlenszerűen van kiválasztva. A demonstrációk eredményes előállításához keményen kódolt szakértői politikát alkalmazunk. A zajt hozzáadjuk a trajektóriákhoz azáltal, hogy megzavarjuk a kiszámított műveleteket, mielőtt azokat a környezetre alkalmaznánk, és egyszerű viselkedésbeli klónozást alkalmazunk az idegi hálózati politika képzésére

Edzőkészlet blokkok egymásra rakására

Konkrétan 140 edzési feladatot és 43 tesztfeladatot gyűjtünk, amelyek mindegyikének a blokkok kívánt elrendezése van. Az egyes feladatoknál a blokkok száma 2 és 10 között változhat. Feladatonként 1000 trajektóriát gyűjtünk az edzéshez, és külön trajektóriákat és kezdeti konfigurációkat tartunk fenn az értékeléshez. A részecskék elérésének feladatához hasonlóan a zajt fecskendezzük a pályagyűjtési folyamatba. A pályák összegyűjtése egy kemény kódolással történik.

A sikeres demonstrációk összegyűjtése egy keményen kódolt politikával történik

Vegye figyelembe, hogy a helyes pályák megtanulása során egy eljárási „keményen kódolt” politika generálja, amely szerintem a rendszer azonosításának és vezérlésének klasszikus technikáira támaszkodik. Tehát a képzés és a tesztelés során az ügynöknek két bemenete van: a) demonstráció A konfigurációban és b) kezdő konfiguráció B. Csak az edzés során a tanulási algoritmus hozzáférhet ideális válaszhoz: a B konfigurációtól kezdődő trajektúra, amely megválaszolja a problémát, és azzal, amellyel az ügynök válaszát összehasonlítják a tanulás során - ez egy felügyelt tanulási probléma.

Minden képzési feladathoz feltételezzük, hogy rendelkezésre áll-e egy sor sikeres demonstráció.

Ha nem egyértelmű, a következő szakaszban áttekintem a különféle tanulási paradigmák közötti különbségeket.

Optimalizálási algoritmus és veszteségfüggvény

A felügyelt tanulás olyan képzési paradigmákra vonatkozik, amelyekben a hálózat minden döntésben hozzáférést kap a helyes választáshoz, amelyet meg kellett volna tennie, és így a hiba fogalmát. Például a kutyák és macskák közötti osztályozási feladatnál a kutyák és macskák képének címkéje előzetesen ismert és a hibákat azonnal felfedezik. Ebben az értelemben különbözik a felügyelet nélküli tanulástól, ahol általában az ügynököt arra kérik, hogy keressen egy korábban ismeretlen struktúrát a kapott bemenetekben, és macskák és kutyák címkéje nélkül fel kellene fedeznie, hogy két különálló objektumcsoport van, csak az az adatokban szereplő információk. Ez különbözik a megerősítő tanulástól, amely gyakran vonatkozik a valósidejű rendszerekre, amelyekben a célhoz vezető döntés pontos sorrendje ismeretlen, de csak a végső „jutalom” határozza meg, hogy a sorrend helyes-e. A tanulás utánzásával a klasszikus megerősítéses tanulási problémát felügyelt tanulási problémává alakítják át, amelyben a hibát távolságból számolják meg egy megfigyelt pályára.

Mint minden felügyelt edzési rendszer esetében, a szóban forgó feladatot teljesen meghatározza a veszteségfüggvény, amelynek célja annak meghatározása, hogy az ügynök milyen messze volt a tervezett viselkedéstől. Ennek a funkciónak a meghatározása gyakran kritikus lépés, mivel meghatározza, hogy az optimalizáló algoritmusok miként frissítik a modell paramétereit. Ezek az algoritmusok fontosak a számítási idő szempontjából, és gyakran szükségük van bizonyos finomításra, hogy konvergálni lehessen, ha egyáltalán. Valójában azok a megoldások, amelyek minimalizálják a funkciót a nagyon nagy dimenzióban, a paramétertér nagyon kicsi héjában találhatók, kis távolságot tartva köztük, amint elhagyod a kis területet, a megoldások közötti távolság gyorsan növekszik. Nagyon sok nagyon érdekes munka van ezen a témán, többek között a nagyon csodálatos Jennifer Chayes részéről, aki egy nagyon érdekes interjúban foglalkozik a Talking Machines utolsó epizódjával.

A szakpolitikai hálózatok képzése során (az egész hálózat, amely a bemenet alapján dönthet arról, hogy milyen intézkedést kell végrehajtani) először dolgozzák fel a sikeres demonstrációs pályát. Ebben a részben két megközelítést hasonlítanak össze: a klasszikus viselkedési klónozást (nem egészen biztosak az alkalmazott megvalósításban) és a DAGGER algoritmusokat. Ez lehetővé teszi az veszteségfunkció iteratív minimalizálását akár l2, akár kereszt-entrópia veszteség alapján, annak függvényében, hogy a műveletek folyamatosak vagy diszkrétek (az események eloszlása ​​alapján a sorozatban). Az összes kísérlet során az Adamax algoritmust alkalmazták az optimalizálás 0,001 tanulási sebességgel.

A lépcső mérete kicsivel kezdődik, és exponenciálisan csökken.

Az algoritmus önmagában nem teszi lehetővé az átvitelt, az átadás lehetővé teszi az edzéskészlet és a veszteség funkció létrehozását.

Kétféle transzfer létezik a feladatokban. Az első fajtára „a valóság közötti rés áthidalására” hivatkoznak, ez egy általánosítás a tanulásban, amely lehetővé teszi a szimulált bemenetekkel történő képzés közötti átváltást a természetes ingerek tesztelésére. A szimulációs adatok gyakran a valóság szegényesített közelítései, amelyek túl tökéletesek, és hiányoznak a valódi tárgy összetettségéből. A való világban a kamera hibás és zajosabb lehet, a motorvezérlés kevésbé pontos, a színek megváltoznak, a textúrák gazdagabbak stb. Az első átadás lehetővé tétele érdekében egy módszert használnak, amelyet „domain randomizációnak” hívnak. : a bemenetekhez hozzáadott zaj hozzáadásával a hálózat megtanulja a közös releváns struktúrát, amely lehetővé teszi a megfelelő általánosítást a valós világban. Például megváltoztatják a kamera szögét az edzési példák között, megváltoztatják a textúrákat, vagy a pályák kevésbé tökéletesek lesznek. Az edzés közbeni zaj hozzáadásával robusztus.

Az itt megvizsgált második átvitel az a képesség, hogy releváns motor-sorozatot állítsunk elő korábban még nem látott konfigurációs és célkészlettel, egy demonstráció alapján egy másik kezdeti konfigurációban, de hasonló végső céllal. Itt ismét átadást tesz lehetővé az edzéskészlet felépítése és a veszteségfüggvény modellezése. Olyan demonstrációk bemutatásával, amelyek nem ugyanazon kezdeti feltételektől kezdődnek, hogy elérjék a hasonló célt, lehetővé teszi a hálózat számára, hogy megtanulja a cél magasabb szintű ábrázolását abszolút pozíciók használata nélkül, valamint a a motoros sorozat, amely nem egyszerű utánzat. A naiv kezdeti architektúra lehetővé teszi a képzést, hogy a struktúrát megfelelő módon módosítsák, és ez a képzett struktúra magában foglalja a végső funkciót.

célok

A blokkok egymásra helyezési paradigmájához számos korlátozás volt, amelyekkel azt akarták, hogy a tanulási ügynök megfeleljen.

Könnyen alkalmazható olyan feladatpéldányokra, amelyek változó számú blokkot tartalmaznak.
Természetesen általánosítani kell ugyanazon feladat különböző permutációira. Például a házirendnek jól teljesítenie kell a {dcba} feladatot, még akkor is, ha csak a {abcd} feladatra képzi.
A változó hosszúságú demonstrációknak be kell illeszkedniük.

Több kérdésük volt, amellyel válaszolni akarták ezt a feladatot.

Hogyan hasonlít a viselkedési klónozással kapcsolatos edzés a DAGGER-hez, mivel elegendő adat gyűjthető offline módon?
Hogyan hasonlít a teljes demonstráció kondicionálása a végleges kívánt konfiguráció kondicionálására akkor is, ha a végleges konfigurációnak elegendő információ van a feladat teljes meghatározásához?
Hogyan viszonyul a kondicionálás az egész demonstrációhoz a pálya „pillanatképén” való kondicionáláshoz, amely egy kis képkészlet, amely a leginkább informatív
Sikeresen általánosíthatjuk-e keretet olyan típusú feladatokra, amelyeket még soha nem látott az edzés során? (++)
Melyek a módszer jelenlegi korlátozásai?

Építészet

Részecskék elérése

Ebben az első példában három architektúrát hasonlítottak össze, amelyek mindegyike a hosszú távú memória (LSTM) idegi hálózatokon alapul. E hálózat leírását a memóriáról és a figyelemről szóló jövőbeli bejegyzésben fogjuk bemutatni, amelyek mind a kognitív, mind a számítástudományban egyaránt izgalmas témák. Lényegében az LSTM a korábbi hálózati kimeneteket (időben) táplálja a hálózat bemenete részeként minden új időpontban, lehetővé téve a múltbeli államok információinak a jelen tájékoztatását (ebből következően a rövid távú memóriahálózatok nevét). Az idősorokkal foglalkozó sok korszerű technológia gyökerei (Alexa, Siri stb.).

Itt használják ezt a három különleges feltételt:

  1. Plain LSTM: megtanulja, hogy beágyazja a pályát és az aktuális állapotot, hogy egy többrétegű perceptronba táplálja, amely a motoros akciót eredményezi
  2. LSTM figyelemmel: hozzon létre súlyozott ábrázolást a pálya mérföldkövei felett
  3. Végső állapot figyelmesen: Csak a végső állapot edzésében használja fel a mérföldkő feletti súlyozáshoz, az előző architektúrához hasonlóan

Blokkolás egymásra

Míg elvileg egy általános neurális hálózat megtanulhatja a leképezést a demonstrációtól és az aktuális megfigyeléstől a megfelelő műveletig, fontosnak tartottuk a megfelelő architektúra alkalmazását. A blokkok egymásra építésének tanulási architektúrája a dolgozat egyik fő hozzájárulása, és úgy gondoljuk, hogy reprezentatív annak, hogy a bonyolultabb feladatok egylépéses utánzatának tanulására szolgáló architektúrák a jövőben nézhetnek ki.

Figyelem modulok

A cikk továbbra is viszonylag magas szintű a feladat megtanulásához használt hálózatok struktúrájának leírásakor. Az építészet egyik kulcsfontosságú alkotóeleme a figyelemfelkeltő modul, de úgy gondolom, hogy ehhez a témához szükség van egy speciális üzenet felvételére, amelyben részletesen megvizsgálják annak alapvető szerepét. A tartós figyelem kognitív tudományos koncepciójának analógiájával a figyelmi modulokat arra használják, hogy megőrizzék és összpontosítsák a releváns információkat, amelyek a tér és az idő különböző tartományaiban találhatók. Rögzített méretű kimenetet állít elő, amely egy információtartalom beágyazását tartalmazza, amely időben és térben meg volt húzva. A topológiához hasonlóan, a matematika egyik ágának, amely szerintem nagymértékben megmutatja, hogyan értjük meg a jövőben az eloszlott reprezentációkat. A figyelmeztető hálózat információ topológiai izomorfizmusát hajtja végre, azonos görbülettel, eltérő alakkal. Ne feledje, hogy ezek a hálózatok nem játszanak szerepet olyan érzékeny detektorban, amely képes a váratlan vagy ritka eseményekre összpontosítani, ami egy olyan funkció, amely összekapcsolódik a figyelem idegtudományi fogalmával.

Itt kétféle figyelmi hálózatot használnak: a) egy ideiglenes figyelem-hálózat, amely súlyozott összeget hoz létre a memóriában tárolt tartalom (lekérdezés, kontextus és memóriavektorok) alapján, és b) egy olyan szomszédságfigyelő hálózat, amely képes a blokkhoz viszonyított információk helyrehozására. pozíciók az ügynök aktuális lekérdezésétől függően.

Időbeli figyelmeztető hálózat, c: kontextusvektorral, m: memóriavektorral, q: lekérdezési vektorral, v: megtanult vektor súlyával. A kimenet azonos méretű, mint a memóriavektor. Ez a vektor egy lineáris kombinációja, amely lehetővé teszi, hogy egyes memóriavektorok a kontextus és a lekérdezési vektorok alapján nagyobb hatást gyakoroljanak a kimenetre.Ugyanez az elképzelés, a téradatok közötti versenyt a figyelmi rendszer dinamikusan fenntartja.

A házirend-hálózat

A teljes hálózat három különféle alhálózatból áll: a demonstrációs hálózat, a kontextus hálózat és a manipulációs hálózat.

A demonstrációs hálózat bemenetként kap egy demonstrációs pályát, és létrehozza a házirend által használt demonstráció beágyazását. A beágyazás mérete lineárisan növekszik a demonstráció hosszának, valamint a környezetben levő blokkok számának függvényében.

Mint itt bemutatjuk, a demonstrációs hálózat képes beágyazni a különféle bonyolultságú és méretű demonstrációkat egy közös formátumba, amelyet a kontextushálózat használ a feladat ábrázolására. Valószínűleg ezen a szinten már megtörténik az általánosítás, a demonstrációs beágyazásnak ki kellene hagynia információkat a demonstrációk során látott pontos pályáról és a kocka abszolút helyzetéről.

A kontextushálózat felépítését tekintve, bár nagyon magas szintű, láthatjuk, hogy a demonstrációs hálózattal való interfész a demonstráció beágyazását táplálja a központi időbeli figyelmeztető modulokba. Azt is látjuk, hogy a korábbi műveletek (LSTM) és az aktuális állapot a bemutató beágyazással összekapcsolt bemenetekként kerülnek betáplálásra, hogy egy globális kontextus-beágyazást kapjunk, amelyet a motorhálózatnak küldünk.

A hálózati funkció leírása véleményem szerint a dolgozat legfontosabb része:

A kontextushálózat azzal kezdődik, hogy a lekérdezési vektort kiszámítja az aktuális állapot függvényében, amelyet arra használnak, hogy a demonstrációs beágyazódás különböző idő lépésein részt vegyenek. Ugyanazon időponton belül a különböző blokkokra összpontosítva a figyelem súlyát összeadják, hogy egy idő lépésben egyetlen súlyt nyerjenek. Ennek az időbeli figyelemnek az eredménye egy olyan vektor, amelynek mérete arányos a környezetben levő blokkok számával. Ezután szomszédsági figyelmet fordítunk az információk terjesztésére az egyes blokkok beágyazásain. Ezt a folyamatot többször megismételjük, ahol az állapotot előrehaladtunk egy nem összekapcsolt súlyú LSTM cellával.
Az előző műveletsor olyan beágyazást hoz létre, amelynek mérete független a demonstráció hosszától, de még mindig függ a blokkok számától. Ezután a standard lágy figyelmet alkalmazzuk rögzített dimenziós vektorok előállítására, ahol a memóriatartalom csak az egyes blokkok pozícióiból áll, amelyek a robot állapotával együtt képezik a manipulációs hálózatnak átadott bemenetet.
Intuitív módon, bár a környezetben lévő tárgyak száma változhat, a manipuláció minden szakaszában a releváns objektumok száma kicsi és általában rögzített. Konkrétan a blokkok egymásra rakása esetén a robotnak csak figyelnie kell annak a blokknak a helyzetére, amelyet megpróbál felvenni (a forrás blokk), valamint annak a blokknak a helyzetére, amelyet megpróbál feltenni ( a célblokk). Ezért egy megfelelően képzett hálózat megtanulhatja a jelenlegi állapotnak a demonstráció megfelelő szakaszával való egyeztetését, és a forrás- és a célblokkok azonosságának következtetését lágy figyelmeztető súlyként kifejezve, különböző blokkok felett, amelyeket azután a megfelelő pozíciók kibontására használnak átadni a manipulációs hálózatnak.

A leírás befejezésének tökéletes példája az AI-kutatások jelenlegi elmozdulása a szakértői rendszer-megközelítésről a tanulási rendszer-megközelítésre, és arra utal, hogy az agy az alábbiakban hogyan alakult.

Noha ezt az értelmezést nem érvényesítjük a képzésben, kísérleti elemzésünk alátámasztja ezt az értelmezést arról, hogyan működik a megtanult politika belsőleg.

Nem tudják, hogyan működik! Felépítenek egy olyan struktúrát, amely képes bizonyos számítások elvégzésére, és bizonyos információk tárolására, amelyek véleményünk szerint alapvetően hasznosak, és egy edzéskészletet adnak hozzá, abban a reményben, hogy az egész szerkezet megtanul! Van egyfajta mesterséges intelligencia kutató voodoo, amely egyre inkább emelkedik, egy művészet, ahogyan a heurisztikus keresést a megfelelő irányba lehet irányítani. És úgy tűnik, hogy egy csomó mágus dolgozik az openAI-nál.

Saját szavak szerint a manipulációs hálózat a legegyszerűbb struktúra, a kontextus beágyazásától a többrétegű perceptronig motoros fellépés jön létre.

Eredmények

Az eredmények gyakran olyan részek, amelyek iránt kevés érdeklődésem van, főleg azoknál a hihetetlenül ragyogó műszaki dokumentumoknál. Gyorsan megyek, lényegében az, hogy ez a megközelítés működik, a pontosan kódolt szakértői politikákhoz hasonló pontossággal hajtja végre, és e sajátos eljárási megközelítéssel ellentétben sok feladat számára általánosítható.

Részecskék elérése

Blokkolás egymásra

Ezekben a kísérletekben különböző körülményeket is teszteltek. A DAGGER használatával három különféle bemeneti feltételt hasonlítottak össze a bemutatott pálya lebontásával: teljes pályák, a pálya pillanatképe, vagy csak a végső állapot felhasználásával. Emellett összehasonlították a viselkedésbeli klónozási algoritmust a demonstráció teljes pályájával.

Erős bizonyíték arra, hogy a rendszer képes-e általánosítani a kocka identitást

Vita

Olvasva az OpenAI által az elmúlt hónapokban elért gyors ütemű előrehaladást, egyre inkább vágyom a munkájukról való beszélgetést, és megosztom gondolataimat arról, hogy mit gondolok munkájukról, valamint az AI területén az egész területén elért előrelépésekről, hogy megértsük, hogyan a biológiai agyok működnek. Különösen az a növekvő gondolat, miszerint az emberek között a látszólag megosztott kognitív funkciók nem annyira egy megosztott struktúrának köszönhetők, amely természetéből adódóan tudja hogyan kell elvégezni a feladatot, hanem inkább egy viszonylag hasonló naiv struktúrák eredménye, amelyek ugyanabban a környezetben szembesülnek, tanuljon hasonló feladatokat elvégezni. A függvény egy olyan funkció nélküli struktúra eredménye, amely csak egy adott feladatot képes megtanulni egy adott környezet miatt, és nem egy olyan struktúra, amely képes a feladatot natív módon elvégezni, egyszerűen csak néhány paramétert megváltoztatva, hogy alkalmazkodjon a környezethez.

Feladatok és konfigurációk: látszólag önkényes meghatározás

Be kell vallanom, hogy nem értem, miért úgy döntöttek, hogy különféle feladatokról beszélnek, ahogy tették. A feladatot a blokk-egymásra helyezési kísérletben úgy definiálják, mint egy karakterlánckészlet, amely képviseli a blokkok egymáshoz viszonyított helyzetét, a halmazban lévő elemek száma meghatározza a halmok számát, és a karakterek számát a blokkok számát, amelyet el kell rendezni . A feladat ekkor blokkok elrendezése halomban, függetlenül a halom abszolút helyzetétől.

Egyes blokkok lehetnek az asztalon, de nem a feladat részei

Önkényesnek tűnik az a választás, hogy a különálló feladat kritériumaként meghatározzák a relatív helyzetet és a halom számot. Valójában értelmezhetõ lenne különbözõ feladatokról beszélni a blokkok abszolút kiindulási helyzete alapján (amit konfigurációnak neveznek). Úgy gondolom, hogy számukra nyilvánvaló a probléma közös jellege, ám az érthetőség kedvéért inkább nem mélyednek bele a részletekbe. Ésszerűbb értelmezni a szakpolitikai tanulást kétféle általánosításként, úgy, ahogy később teszik:

Vegye figyelembe, hogy az általánosítást több szinten értékelik: a megtanult politikának nemcsak általánosodnia kell a már látott új konfigurációkra és a feladatok új demonstrációira, hanem általánosítani kell az új feladatokra is.

Cserélje ki a „feladatokat” a „veremrendelésekre”. A feladat helyes megtanulása azt jelenti, hogy az ügynök beágyazást tanul meg, amely képes elválasztani a kockák helyzetét (konfiguráció), de meghatározzák azok identitását (feladat), a kötegek számát (feladat) és a demonstráció pályáját (röviden bemutatjuk a árajánlat), hogy releváns motoros választ hozzon létre.

Ezek az általánosítások ellentmondásosnak tűnnek, hogyan lehet ugyanaz a hálózat elválasztani a kocka kezdeti konfigurációját vagy identitását, és mégis helyreállítani a motor válaszának abszolút helyzetét?

Ez megmagyarázza a különféle kooperatív alhálózatok szükségességét a tanulás során, a különböző bemenetek fogadását, és elmagyarázza, hogy a kontextusban a hálózat elvont ábrázolására a csökkenő parancs elõtt alacsonyabb sorrendû információt adnak, mint például abszolút kockák kockái.

Gondolhatja, hogy hülye a feladat és a konfiguráció megkülönböztetésének megjegyzése, de fontos megérteni, hogy lényegében ugyanaz az absztrakciós folyamat a különféle tárgyakon játszott játék során (és ez a következő szakasz számára nyílik meg).

Invariancia nélkül nincs tanulás

A transzfertanulás talán a legérdekesebb megismerési koncepciója, akár in-silico, akár in vivo, ez egy nagyon forró téma mind az AI kutatók, mind az idegtudománytudósok számára, és ez történt a PhD értekezésem témája. Vegye figyelembe, hogy a szorosan összefüggő fogalmakat számos területen feltárták a gépi tanulás előtt, és ennek az elvont és mindig részben meghatározott fogalomnak sok neve van. A filozófusok, antropológusok és szociológusok utalhatják arra, hogy (poszt) struktúrizmus (Claude Levi-Strauss, Michel Foucault), a nyelvészek a szintagmáról és a beágyazott fa struktúrákról (Noam Chomsky) beszélnek, a matematikusok valószínűleg a homeomorfizmusról vagy az invariánsokról, valamint az oktatásról szólnak. kutatók vagy idegtudósok hivatkozhatnak erre strukturális tanulásként. A gépi tanulás terén hasonló fogalmakat is láthat, mint például a reprezentációs tanulás és a meta-tanulás, amelyek a szerzőktől függően utalhatnak az átviteli tanulásra vagy az átviteli tanulás végrehajtásához használt tanulási paradigmára. A mély neurális hálókról beszélve ezek a különbségek elmosódottak, mivel lényegében a neurális háló egy bizonyos probléma beágyazására (reprezentációs tanulás) tanul, szerkezetének (meta-tanulás) módosításával, általában egy zajos környezetben, amely egyfajta transzfer tanulást jelent.

Az AI kutatói és a kognitív tudósok gyakran nagyon konkrétan definiálják az átviteli tanulást, ez az a folyamat, amely lehetővé teszi a rendszer számára, hogy egy adott feladat során megszerzett ismereteket egy másik, közös összetételű szerkezettel bíró feladat elvégzéséhez használjon (a cikkben leírtak szerint). A kognitív tudománynak ez a közeli és távoli transzfer fogalma, attól függően, hogy a két feladat hogyan tűnik egymástól. De elvont szempontból, zajos és összetett környezetben az összes tanulás az átvitel egyik formája, és a közeli és a nagyon távoli átadás közötti különbség csak megosztott információ kérdése - megint csak a méret, nem pedig a természet kérdése.

Ellenőrzött környezetben előzetesen erőfeszítéseket teszünk a valóság keményen kódolt diszkretizációjának megteremtésére, de valójában ez a diszkretizálás eljárási szempontból reprodukálja azt, amit az átviteli tanulás eredményez, és a valóságban megtalálható végtelen állapotkészletet egyesíti egy közös körülvevő szerkezet alatt. A transzfertanulás lényegében közvetlenül vagy kibővítve utal arra a folyamatra, amelyen keresztül a tanulási ügynökök invariánsokat használnak a világ modelleinek felépítéséhez. Ez egy olyan folyamat, amely hasonlóságokat, ismétléseket és azok variációit használ egyre inkább absztrakt és összetett ábrázolás kialakításához, amely szerkezetet alkot az együttesek a bemeneti varianciatartomány felett. Általános értelemben ez lehetővé teszi az alapműveletek létrehozását, amelyeken keresztül információs csoportokat manipulálunk, ugyanúgy, mint a matematikában lehetővé teszi az egyesülést és a kereszteződéseket. Lehetővé teszi az identitásokat, megmagyarázza az objektumok kategorizálásának képességét. Josh Tenembaum olyan példát mutat, amely igazán beszélt velem: Képzelje el, hogy először kétéves gyermeket tanít egy ló felismerésére, megmutatja neki néhány képet a különböző lovakról, majd megmutatja neki egy másik ló képét, és a ház képe és kérje meg, hogy mondja meg neked melyik a ló. A gyermek ezt a feladatot nagyon könnyen elvégzi, de ez mégis valami, amit a számítógép nem tud megoldani olyan kevés bemenettel (egy lövés).

Hogyan csinálta a gyermek?

Az állatok felismerését gyermekeken tanulmányozták, és összefüggenek azzal, hogy képesek vagyunk tárgyakat releváns részekre bontani, a szőr színét, a nyak méretét, az általános alakot stb. még soha nem látott, megtanultál egy motoros sorrendet, amely általánosít minden helyzetre (domain általánosítás). Ez is az, amit magyarázó modellek készítésénél használnak, amelyek egyszerűsítik a világot. Előfordulhat, hogy valójában meglepődni fog egy Kakukk hirtelen megjelenése egy híres svájci órában, de a második megjelenés után ezt várni fogja. Az invariancia megkeresésével tanuljuk meg az idegi hálózatot, és ezeket a modelleket öntudatlanul építjük fel. Példa erre: hogyan tanulunk intuitív módon a fizikáról, még mielőtt hallottuk volna a matematikát és a számokat.

Fel lehet kérdezni például, hogy milyen gyorsan alkalmazkodik egy mikrogravitációban született gyermek a föld gravitációjához, és intuitív módon megtanulja, hogy a tárgyak esnek a földre eséskor?

Feltételezhetjük, hogy a csecsemők és az állatok többsége öntudatlanul felülvizsgálja modelljét, ugyanúgy, mint amikor a kutyájára zoknit teszel, és időbe telik az új információkhoz való alkalmazkodás.

De egy kisgyermekek számára tudatos kihallgatásra és intuitív modelljének felülvizsgálatára kerül sor, a kíváncsiságtól kezdve, a nyelv, a szimbólumok és a hiedelmek révén. A képességünk, hogy tudatosan kihallgassuk és megváltoztassuk modelleinket, lenyűgöző, és szidenoteként az ember lehet az egyetlen faj, aki képes verbalizálni a folyamatot, de más fajok hasonló tudatos módosításokat végezhetnek.

Az invariancia az idő kötelező tulajdonsága, ha minden mindig új volt és semmilyen módon sem volt kiszámítható, akkor is megmaradna ez az egyedülálló invariantus, hogy minden mindig új és kiszámíthatatlan. Lehetetlen elképzelni egy világot invariancia nélkül, mivel nem lehet olyan világ, amelyre hivatkozni lehetne, invariancia nélkül az élet lehetetlen, és az agyunk haszontalan. Az élet olyan gép, amely csak az események kiszámítható ismétlése, az okok és következmények megismétlése, az energia ciklikus újbóli bevezetése a szervezetbe működik. És az élet azon törekvésein, hogy javítsa e szükséges ciklusok felhasználását, az agyunk a végső eszköz. Ez egy előrejelző gép, adaptív szerv, amely dinamikusan megtalálja az ismétlést és felhasználja azt a jobb interakcióra a világgal.

Ez a módszer, amelyet az élet választott, rendkívül robusztus a szerkezet kis változásaira. Ugyanaz marad a környezet, a környezet statisztikai tulajdonságai, de a hozzá kapcsolódó idegi struktúra változhat, mindaddig, amíg beágyazhatja a kezelésére kifejlesztett releváns információkat. Ez megmagyarázza, miért lehet az agyunk annyira eltérő egyénről egyedre, akár elsődleges kéregkére, és mégis ugyanazokat a funkciókat oszthatja meg.

Az idegrendszerek alkalmazkodóképességűek, és a viselkedés megfelelő változtatásához nincs szükség evolúcióra és lassú genetikai mutációkra. Egy olyan egyszerű idegrendszer, mint amilyet a C. Elegans talál, veleszületett belső koordinátorként és külső érzékelőként szolgál: érzékeli az ételt és mozog felé, menekül a fájdalomtól, reprodukál. Ezek az egyszerű rendszerek kezdetben merevek voltak, és rendkívül közelítik meg a nagyon zajos világunkat annak érdekében, hogy a lehetséges állapotok kis sorozatában (bal oldali étel, hő alatti hőmérsékleten stb.) Kiürítsék azt. Motoros és szenzoros képességeink az idegrendszer előrejelző képességeinkkel együtt fejlődtek ki. Ahogy érzékelőink pontosabbak lettek, az idegrendszer lassan képes volt módosítani a szerkezetét az információk tárolására és a tapasztalatokból való tanulásra. Kezdetben képessé vált arra, hogy megismerje a bemeneti adatok bizonyos kategóriáit, például a szagok vagy a fényminta típusait, és próba és hiba útján is megtanulta megtanulni az egyre összetettebb motorrendszer irányítását. Vegye figyelembe, hogy a világ annyira összetett, hogy az agyunk természetesen a tanulási paradigma felé fejlődött, nem pedig a veleszületett eljárási megközelítés felé. Számítástechnikai szempontból ennek tökéletes értelme van: egy egyszerű Go játék állapottérének jóval nagyobb a tartománya (2,10¹⁷⁰), mint az univerzum atomszámának (10⁸⁰), és ahogy az organizmusok bonyolultabbá válnak, megpróbálják minden lehetséges közelítést keményen kódolni. állítja, hogy a kombinatorikus robbanás következtében gyorsan felmenthetetlenné válhat.

Vannak, akik úgy gondolják, hogy az agyunk oly módon van felépítve, hogy belsőleg ábrázolja azt a teret, amelyben fejlődik, hogy a DNS-ben valahol egy gén található, amely az arcot alkotja, vagy a hanghullámok ideiglenes szerveződése fel szavakat. Azt gondolhatják, hogy ezt a veleszületett tudást valahol születéskor kódolják. Mások úgy gondolhatják, mint a filozófia tanárom, amikor középiskolás voltam, hogy a létezés lényegét megelőzi, és hogy agyunkat teljesen és kizárólag a szervezet és a világ találkozása határozza meg. A valóság természetesen bonyolultabb, és a legtöbb eddig tanulmányozott telencephalis rendszer esetében az agy nem veleszületett módon kódolja azt a funkciót, amelyet elvégz, hanem megtanulja a bemeneteiben szereplő információktól függően. Ha a bevitt adatok hiányosak a releváns információkban, akkor az ezen struktúrában való tanulási képességnek lehet lejárati ideje (pl. Amblyopia). De ha a veleszületett szerkezet nem kódolja a végső funkciót, akkor az agynak van sajátos szerkezete. Ezt a struktúrát megőrzik az egyének között, és ugyanazon faj egyedeinek közös funkciói és meghajtói vannak. A DNS felállít egy bizonyos struktúrát a helyén, egy olyan struktúrát, amely nem képes végleges funkcióját belsőleg ellátni, hanem egy olyan struktúrát, amely képes az egyéni tapasztalatok alapján megtanulni az egyes feladatok összetettségét. Nem meglepő, hogy az evolúció eredményeként egy nagyon hatékony vér-agy gát jelenik meg, amely elkülöníti az agyat a test többi részétől, valamint a végtagokat és a kemény csont héját, védi azt a külvilágtól, mivel más szervekkel ellentétben, amelyekben a szerkezet a genomban van kódolva, a képzett agy szerkezetét nem lehet regenerálni egy veleszületetten tárolt modellből. Izgalmas az, hogy ugyanazokat a tanulási mechanizmusokat látjuk, amelyek analógia útján jönnek létre egyre összetettebb, mélyebb hálózatok kifejlesztésével, amelyek egyre összetettebb feladatokat látnak el.

A kompozíciós struktúrákat nehéz látni, de mindenhol

Aláíróként furcsa, hogy még a szerzők sem ismerik fel, hogy a cél kitűzésének első feladata kompozíciós szerkezetű.

A feladatokat elért szemcsék szépen demonstrálják az általánosítás kihívásait egyszerűsített forgatókönyv szerint. A feladatok azonban nem osztják meg a kompozíciós struktúrát, így az új feladatokra való általánosítás értékelése kihívást jelent.

Noha a struktúra valóban alacsonyabb szintű, mint a blokkok egymásra helyezése, és nem könnyű hozzáférni a kísérleti manipulációhoz, a feladat valóban megosztott struktúrából áll. A síkhoz közelítve az egyik kompozíciós szerkezet az, hogy a kocka azonosságot (színt) megőrzik a transzlációval, és az A blokkból - vagy egy véletlenszerű kiindulási helyzetből - a (Xa1, Ya1) helyzetben a B blokkolásához (Xb1, Yb2) ) ugyanazon a magasabb rendű összetételű szerkezet részét képezi, mint az A blokkból az (Xa2, Ya2) helyzetben a B blokkhoz menve (Xb2, Yb2).

Interfészek a hálózatok között

A bevonatok különböző absztrakciós szintjein történő kezelésére képes neurális hálózatok felépítéséhez interfészekre lesz szükség, egy olyan területre, amely szerintem sok felfedezésre vár. Ezek az interfészek számos természetűek lehetnek. Például közös hálózatnak tekinthetők két hálózat között, amint azt a cikk is bemutatta: egy figyelmeztető rendszerrel (demonstrációs hálózat) felépített alacsonyabb szintű hálózat lefordíthatja a demonstrációt egy reprezentációban, amelyet egy másik hálózat (a kontextus hálózat) használhat a demonstráció hosszától vagy kezdeti konfigurációjától függetlenül irányítson cselekedést.

Ennek a nyelvnek a felülete itt egy sík, rögzített méretű, de elképzelhető olyan lehetséges változtatások, amelyek javíthatják a hálózat közötti kommunikációt. Például a felület méretét úgy lehet beállítani, hogy dinamikusan növekedjen vagy csökkenjen, amikor a hálózatok kölcsönhatásba lépnek a tanulás során, ezáltal tömörítve vagy kibővítve a nyelv bonyolultságát. Képzelhetünk el dinamikusabb interakciókat is, például visszajelzés útján. Elképzelhetjük, hogy léteznek-e olyan segítő hálózatok, amelyek megtanulják a hálózatok közötti kommunikáció simítását, léteznek párhuzamos hálózatként, amelyek megtanulják az első hálózat bemeneteit a második hálózat bemenete és kimenete alapján modulálni. Elképzelhetjük az összetett kontextus-hálózatokat, amelyek tonikus (lassan változó) beáramlásként hatnak több speciális hálózatra ... Izgalmas jövőbeli kutatási terület!

A hibaesemények utalnak az új modulok lehetséges szerepére

Érdemes megjegyezni, hogy a hibákat gyakran motoros hibák okozzák, és hogy a hibák száma a feladat összetettségével növekszik.

A motoros funkciót nem szabad csak a célok számának növelésével rontani, ez egyértelmű bizonyíték arra, hogy a reprodukciós hálózat megtanul beszélni a motorhálózattal túl elvont. Furcsa, mert azt mondják, hogy a tesztük azt mutatja, hogy a kontextus-hálózat és a motorhálózat közötti felület viszonylag konkrét (a robot pozíciója, a célpontja).

Lehetséges megoldás lehet, mivel ez egy moduláris architektúra, különféle veszteségfüggvények vagy moduláris veszteségfüggvények használata a feladat mindegyik aspektusát szemléltetve. Az agy előtti motor területekkel egyenértékű feladatok segítenek abban is, hogy a demonstrációs és a kontextus-hálózat absztrakt maradjon anélkül, hogy a motoros parancsot rontaná. A premotor régiók szükségesek az objektumok pontosabb lokalizálásához a cél (absztrakt hálózatokból) és az érzékelő bemenetek alapján a legjobb motoros parancs kiválasztása érdekében. Úgy tűnik, hogy a kontextushálózat egyrészt megpróbálja a demonstrációt magasabb szintű beágyazásra átvinni, és egyidejűleg előkészíti a motoros tevékenységeket a jelenlegi környezetben. A motor előtti hálózat szerepe az lenne, hogy megtanuljon kommunikálni a motorrendszerrel célorientált és adaptív módon, kombinálva mind a premotor, mind a kisagy funkcióit a motoros tanuláshoz és a gyors alkalmazkodáshoz.

Van egy érdekes elmélet, a Moravec paradoxonja, amely azt jósolja, hogy nem a magasabb szintű megismerés lesz a számítástechnikai adóztatás, hanem az érzékszervi bemenetek és a motoros rendszerek kimeneteinek kezelése. Ez valószínűleg annak tudható be, hogy a kisagyunkban nagy mennyiségű neuron található (több, mint az agyunk többi részében), hogy adaptív módon vezessenek a motoros működésre. Ezt a paradoxont ​​egy olyan időben (a 80-as években) fogalmazták meg, amikor még mindig azt hittük, hogy be tudjuk ágyazni saját tudásunkat egy gépen, hogy összetett feladatot végezzünk ellenőrizetlenül zajos környezetben. Természetesen ennek a paradoxonnak van értelme, ha a gép valamilyen módon képes reprezentálni a világot egy diszkretizált állapotkészletben, így a magasabb szintű funkció felépítése könnyebb lenne. De azt hiszem, hogy mindkettő rendkívül adózatosnak bizonyul, és a hálózatok közötti interfészen alkalmazott belső ábrázolás messze nem olyan, mint a saját tudatos reprezentációink.

Következtetés

A probléma speciális kezeléséért felelős különféle ideghálózatok kombinálásával ez a cikk azt mutatja, hogy egy feladat létrehozásával, amely magában foglalja az általánosítást, és megfelelő tanulási környezetet épít ki a tartományok randomizálásán keresztül, egy memória-hozzáféréssel rendelkező neurális hálózatot és egy A figyelmeztető rendszer megtanulhatja az általános reprodukción túlmutató általánosítást. Megtanulhatja felfedezni egy magasabb rendű célt, amelyet csak egyszer mutattak be egy információs vizuális adatfolyamban, és elvégzi a kiszámítást egy általánosított térben annak érdekében, hogy visszaszerezze a megfelelő műveleteket, amelyek képesek a cél más kontextusban történő reprodukálására.

A jövőben egyre növekvő bonyolultsággal fogunk felépíteni azokat az atomi építőelemeket, amelyek képesek megtanulni az összetett feladatok általánosítását, de ennél is fontosabb az ilyen feladatok elvégzése új környezetben, kevésbé támaszkodva a keményen kódolt módszerekre, mint például a bemenetek előfeldolgozása vagy memória tárolása. A memória tárolását az osztott reprezentációk váltják fel a memória hálózaton keresztül, a figyelmeztető rendszereket pedig a ciklikus tevékenység váltja fel a valós idejű figyelmi hálózatokban. Továbbra is felmerül a kérdés, hogyan leszünk képesek alkalmazkodni egy erős soros technológiához (Turing gépek) az elosztott számítástechnika iránti növekvő támaszkodáshoz a megvalósított rendszerben.