Neurális adattudomány: hogyan és miért

Az idegsejtekre vonatkozó adattudomány elvégzésének durva útmutatója

Az agy, amely adattudományt végez. Kredit: Agy: Matt Wasser a Noun Project-ből

Csendesen, lopakodóan egy új típusú idegtudós alakul ki. A teoretikusok sokszínűségéből az idegtudósok olyan csoportjai emelkedtek fel, amelyek tudományos ismeretekkel rendelkeznek az idegi aktivitásról, a több száz idegsejt ritkán történő porlasztásáról. Nem az adatok elemzésére szolgáló módszerek létrehozása, bár mindegyik is ezt megteszi. Nem az adatok gyűjtése, mert ehhez újabb, félelmetes, készségkészletre van szükség. De az idegtudósok a modern számítási technikák teljes skáláját használják fel ezen adatok alapján az agy tudományos kérdéseire. Megjelent egy idegi adattudomány.

Kiderült, hogy én vagyok az egyik, az idegi adattudományi tudósok klánja. Véletlenül. Amennyire meg tudom mondani, így születik minden tudományos terület: véletlenül. A kutatók követik az orrukat, elkezdenek új dolgokat csinálni, és hirtelen kicsi tömeg találja őket a konyhában partiknál ​​(mert itt vannak italok, hűtőszekrényben - a tudósok okosak). Tehát itt van egy kis manifeszt a neurális adattudomány számára: miért jön létre, és hogyan kezdhetjük el ezt.

Miért ugyanaz, mint az összes tudományterületen, amelyek kiküszöbölték az adattudományt: az adatok mennyisége kezéből fakad. A neuronok sokaságának rögzítésére irányuló tudomány szempontjából ez az adathiány egyfajta tudományos indokolással rendelkezik. Az agy úgy működik, hogy üzeneteket továbbít a neuronok között. Az üzenetek többsége apró elektromos impulzusok formájában fordul elő: tüskék, nevezzük őket. Tehát soknak logikusnak tűnik, hogy ha meg akarjuk érteni, hogy az agy hogyan működik (és mikor nem működnek), akkor fel kell vennünk az összes üzenetet, amelyet az összes neuron átad. Ez azt jelenti, hogy annyi tüskét kell felvenni a lehető legtöbb idegből.

Egy csecsemő zebrafish agyban körülbelül 130 000 neuron található, és legalább egymillió kapcsolat van közöttük; egy darázséhben körülbelül egymillió neuron található. Láthatja, hogyan válhat ez nagyon gyorsan a kezéből. Jelenleg tíztől pár százig terjedő idegsejteket rögzítünk egyszerre, a standard készlettel. A határok között vannak az emberek, akik néhány ezer felvételt készítenek, sőt néhányan tízezreket is felvesznek (bár ezek a felvételek sokkal lassabban rögzítik az idegsejtek aktivitását, mint amennyit az idegsejtek küldhetnek tüskékkel).

Ezt az őrültségrendszereket idegtudománynak nevezzük: idegtudományt, az idegsejtek tanulmányozására; rendszereket, mert egyidejűleg egynél több idegsejtből is szeretnék felvételt készíteni. Az adatok gondolkodás közben bonyolultak. Tíz-ezer egyidejűleg rögzített idősor van, amelyek mindegyike egy idegből származó spiking események (tényleges tüskék, vagy azok valamilyen közvetett mérése) patakja. Meghatározásuk szerint nem helyhez kötöttek, statisztikáik idővel változnak. Aktivitásuk nagysága nagyságrendileg megoszlott, a szerzetesszerű csendes elmélkedéstől kezdve a „dobkészletnek egy szélcsatornaban”. És aktivitási mintáik az órás jellegű szabályszerűségtől a dadogásig és a permetezésig terjednek, a mánia és a kimerültség rohanásáig.

Most vegye feleségül az állat viselkedésével, ahova regisztrálta az idegsejteket. Ez a viselkedés több száz próbaverzió; vagy kar mozgások; vagy egy környezetben átvitt útvonalak. Vagy egy érzékszerv mozgása, vagy az izomzat teljes testtartása. Ismételje meg több állatra. Lehetséges, hogy több agyrégió is. És néha egész agy.

Nincs alapvető igazságunk. Nincs helyes válasz; az adatokhoz nincs képzési címke, kivéve a viselkedést. Nem tudjuk, hogy az agyok hogyan kódolják a viselkedést. Tehát megtehetjük a viselkedés címkéit, de szinte mindig tudjuk, hogy ezek nem a válasz. Ezek csak a „válasz” nyomai.

A rendszerek idegtudománya tehát gazdag játszótér azok számára, akik az idegtudomány ismereteit az adatok elemzéséhez szükséges know-how-jához férhetik hozzá. Neurális adattudomány születik.

Hogyan lehet - vagy lehetne - megtenni? Ez egy durva útmutató. A neurális adatok tudósának lényege, hogy tudományos kérdéseket tegyen fel az idegrendszeri idegtudományból származó adatokkal kapcsolatban; kérdezni: hogyan működnek együtt ezek a neuronok, hogy megtehessék a dolgukat?

Nagyjából három módon tudunk válaszolni erre a kérdésre. Ezt a három módszert láthatjuk úgy, hogy megvizsgáljuk a gépi tanulás során bevált problémák osztályainak és a rendszer idegtudományi számítási kihívásainak a kapcsolatát. Kezdjük azzal, hogy megnézzük, mihez kell működnünk.

N neuronból van néhány adat, amelyeket idővel összegyűjtöttünk. Összerakjuk ezeket egy mátrixba, amelyet X-nek hívunk - annyi oszlop, mint neuronok, és annyi sor, mint amennyi időpontokat rögzítettünk (ha rajtunk múlik, hogy meddig tart egy „időpont”: talán tedd rövidre, és minden bejegyzésnél rögzíts egy 1-t egy tüskénél, és 0-t. Máskülönben hosszú lehet, és minden bejegyzés rögzíti a tüskék számát az eltelt idő alatt). Az idő alatt dolgok történtek a világon - beleértve azt is, amit a test csinált. Tehát tegyük mindezt egy mátrixba, amelyet S-nek hívunk - annyi oszlopot, amennyi olyan funkció van a világon, amelyben érdekel, és annyi sorot, mint időpontokat rögzítettünk ezekre a funkciókra.

Hagyományosan, a gépi tanulás magában foglalja a modellek három osztályának felépítését a világ állapotáról és a rendelkezésre álló adatokról: generációs, diszkriminatív és sűrűségi. Durva útmutatóként a táblázat bemutatja, hogy az egyes osztályok hogyan felelnek meg a rendszer idegtudományi alapvető kérdéseknek:

1 / S (X) sűrűségmodellek: van-e szerkezet a tüskékben? Unalmasan hangzik. De valójában ez a kulcsa az idegtudományi kutatások nagy számának, amelyekben meg akarjuk tudni, hogy valami (drog, viselkedés, alvás) milyen hatással van az agyra; amelyben azt kérdezzük: hogyan változott meg az idegi aktivitás szerkezete?

Egy csomó neuron felvételével erre három módon válaszolhatunk.

Először meghatározzuk az egyes neuronok tüske-vonalát azáltal, hogy megmérjük az X minden oszlopának statisztikáit, például a tüske arányát. És akkor kérdezd meg: mi a P (X) modell ezeknek a statisztikáknak? Összerakhatjuk ezeket a statisztikákat, hogy megtaláljuk az idegsejtek „típusait”; vagy egyszerűen illeszkedjen a modellekhez a teljes közös elosztásukhoz. Akárhogy is, van néhány modellünk az adatszerkezetre az egyes idegsejtek granulátumánál.

Másodszor, létrehozhatunk generatív modelleket a teljes populáció aktivitásáról, az X sorainak felhasználásával - az egész populáció pillanatnyi aktivitásának vektorjai. Az ilyen modellek tipikus célja annak megértése, hogy az X szerkezetének mekkora részét lehet néhány új kényszerből újra létrehozni, függetlenül attól, hogy hány vektornak van hány tüske; vagy a neuronok páros összefüggései; vagy ezek kombinációi. Ezek különösen akkor hasznosak, ha a népesség aktivitásában van valamilyen különleges szósz, ha ez több, mint független vagy unalmasan egyszerű neuronok együttes tevékenysége.

Harmadszor, felvethetjük azt az álláspontot, hogy az X idegi aktivitása az alacsony dimenziós tér néhány nagydimenziós megvalósítása, ahol a dimenziók száma D << n. Általában így gondolunk: néhány X neuron korrelál, tehát nem kell az egész X értéket felhasználnunk a populáció megértéséhez - ehelyett sokkal egyszerűbb ábrázolással helyettesíthetjük őket. Az idősorokat közvetlenül csoportosíthatjuk, tehát X bontása N kisebb X_1 - X_N mátrixba, amelyek mindegyikének (viszonylag) erős korrelációja van benne, és így külön kezelhető. Vagy használhatunk valamilyen dimenziócsökkentési megközelítést, például a főkomponensek elemzését, hogy egy kis idősorozatot kapjunk, amely mindegyik leírja a népesség aktivitásának egy domináns formáját az idővel.

Ennél többet tehetünk. A fentiek azt feltételezik, hogy a neuronok összeomlásakor a dimenziócsökkentést akarjuk használni - hogy a redukciót alkalmazzuk az X oszlopokra. De ugyanolyan könnyedén összecsukhatjuk az időt is, ha méretcsökkentést alkalmazunk X soraira. , ez azt kérdezi, hogy az idő különböző pillanataiban vannak-e hasonló idegrendszeri minták. Ha ezek közül csak néhány van, akkor a rögzített neuronok dinamikája nyilvánvalóan nagyon egyszerű.

Dinamikus rendszermegközelítéseket is itt dobhatunk be. Itt megpróbáljuk az egyszerű modelleket illeszteni az X változásaiba az idő múlásával (azaz sorba rendezni a sorokat a másikig), és ezeket a modelleket felhasználva meghatározhatjuk az X dinamika típusait - olyan kifejezésekkel, mint „vonzó”, „szepratrix”, „ nyeregcsomópont ”,„ hangszóró megszakítása ”és„ az Arsenal összeomlása ”(ezek közül csak az egyik nem valódi dolog). Valószínűleg azt állíthatjuk, hogy az így illesztett dinamikus modellek mindegyike a P (X) sűrűségű modell, mivel leírják az adatok szerkezetét.

A pokolba, meg is tudhatjuk próbálni illeszteni egy idegi áramkör teljes dinamikus modelljét, egy csomó differenciálegyenletet, amely leírja az egyes idegsejteket, X-re, így P (X) modellből mintavétel történik minden alkalommal, amikor a modellt különböző kezdeti körülményektől futtatjuk. .

Ezeket a sűrűségmodelleket külön-külön illeszthetjük be a neurális aktivitáshoz, amelyet különféle állapotokban (S1, S2,…, Sm) rögzítettünk, és olyan kérdésekre válaszolhatunk, hogy: hogyan változik az idegsejtek populációjának szerkezete alvás és ébredés? Vagy az állat kifejlesztése során? Vagy egy feladat megtanulása során (ahol S1 lehet 1. próba, és S2 2. próba; vagy S1 az 1. és S2 2. ülés; vagy ezek sok kombinációja). Arra is feltehetjük a kérdést: hány dimenzióba esik át az idegsejtek aktivitása? Különböznek-e a méretek a kéreg különböző régiói között? És látta valaki a kulcsoimat?

2 / P (X | S) generációs modellek: mi okozza a tüskét? Most beszélünk. Olyan dolgok, mint a lineáris-nemlineáris modellek, vagy az általánosított lineáris modellek. Általában ezeket a modelleket alkalmazzák az egyetlen idegsejtekre, az X minden oszlopába. Ezekkel olyan modellt illesztünk be, amely az S világállapotát használja bemenetként, és olyan neurális aktivitási sorozatot bont ki, amely a lehető legjobban megfelel az idegsejtek aktivitásának. Azután, hogy megvizsgáljuk az S minden egyes tulajdonságának az idegrendszeri tevékenység reprodukciójához adott súlyozását, megtudhatjuk, hogy az a neuron melyik szerint fenyeget.

Érdemes lehet olyan modellt választani, amely bizonyos rugalmassággal rendelkezik ahhoz, amit „a világ állapotának” kell tekinteni. Beépíthetjük a neuron korábbi tevékenységeit funkcióba, és megnézhetjük, érdekli-e az, amit a múltban tett. Bizonyos típusú neuronok esetében a válasz igen. A kitörés sok energiát vehet igénybe egy idegsejtből, és le kell feküdnie egy kis nyugalomra, mielőtt újra elindulhat. Szélesebb körben gondolkodhatunk, és bevonhatjuk a lakosság többi részét - az X többi részét - az S világállam részeként, miközben az idegrendszer tüzel. Végül is, a neuronok időnként befolyásolják egymás tüzelését, vagy arra késztettem, hogy higgyek. Tehát van egy apró esély arra, hogy a látókéregben lévő neuronok reakcióját nem csupán a külvilág egyik széle orientációja vezérli, hanem attól is függ, hogy a hozzá kapcsolódó 10000 kéreg neuron is mit csinál. Akkor megtanuljuk a lakosság körülbelül legbefolyásosabb idegsejtjeit.

Nem kell ezeket a generációs modelleket alkalmaznunk egyetlen neuronra. Ugyanúgy alkalmazhatjuk őket sűrűségi modelleinkre is; megkérdezhetjük, hogy az egyes klaszterek vagy dimenziók milyen kódolással rendelkeznek a világon. Vagy, ahogy néhány ember itt tette, magát a sűrűségmodellt használhatjuk a világ állapotaként, és feltehetjük a kérdést, hogy a modell mely tulajdonságai miatt az átmenő idegsejtek átkoznak.

A kérdés típusai, amelyekre ezeket a generatív modelleket megválaszolhatjuk, meglehetősen nyilvánvalóak: mely tulajdonságok kombinációja jósolja meg a legjobban az idegváladék válaszát? Van-e egyetlen dologra szelektív neuron? Hogyan befolyásolják az idegsejtek egymást?

3 / P (S | X) diszkriminatív modellek: milyen információkat hordoznak a tüskék? Ez a központi idegtudomány egyik alapvető kérdése, mivel ez a kihívás, amellyel az összes idegsejt szembe kell néznie, amelyek a regisztrált populációnál lejjebb vannak - az összes olyan neuron, amelyek bemeneti jeleket kapnak azoktól a neuronoktól, amelyeket felvettünk és behelyeztünk az X mátrixba. csak a tüskék alapján kell tudniuk a külvilágról.

Itt használhatunk szabványos osztályozókat, amelyek a bemeneteket címkézett kimenetekre képezik. Használhatjuk az X sorokat bemenetként, mindegyik pillanatképet a népesség aktivitásáról, és megpróbálhatjuk megjósolni az S, a megfelelő sorok egyikét, egy részét vagy mindegyikét, esetleg bizonyos késleltetéssel, ezért az X_t sort használjuk a megjósolni az S_t-n állapotot, amely a múltban n lépés volt, ha érdekli, hogy a populációk hogyan kódolják az agyba bevitt állapotokat; vagy használhatjuk az X_t sort az S_t + n állapot előrejelzésére, amely a jövőben n lépés lesz, ha érdekli, hogy a populációk hogyan kódolják az agy valamilyen hatását a világra. Mint a motoros kéregben végzett tevékenység, amely akkor történik, mielőtt minden betűt beírnék.

Akárhogy is, veszünk néhány (de nem mindegyiket, mert nem ruházunk túl) X sorokat, és kiképezzük az osztályozót, hogy megtalálja az X lehető legjobb leképezését az S. megfelelő darabjára. Ezután megvizsgáljuk az osztályozót, hogy mennyire képes megjósolja az S többi részét a megfelelő X többi részből. Ha rendkívül szerencsés, az X és S annyira hosszú lehet, hogy fel tudja osztani őket vonatkészletre, tesztelésre és érvényesítésre. Az utolsót zárva tartott dobozban kell tartani.

Természetesen olyan erőteljes osztályozót is használhatunk, amennyit csak akarunk. A logisztikus regressziótól a Bayes-féle megközelítéseken keresztül egy 23 rétegű neurális hálózat használatáig. Inkább attól függ, hogy mit válasszon ki a választ, és az Ön számára jól érthető értelmezhetőség és hatalom közötti kompromisszumot. Másutt írt írásaim világossá tették, hogy ennek a kompromisszumnak melyik oldalán hajlok inkább támogatni. De örülök, hogy tévesnek bizonyítottam.

Az idegsejtek kódoló modelljei észrevétlenek, de érintik néhány régi és mély filozófiai kérdést. A kódolás tesztelése egy diszkriminatív modell alkalmazásával feltételezi, hogy valami az áramlás utáni szakaszban megpróbálja dekódolni az S idegi aktivitását. Ennek két problémája van. A neuronok nem dekódolódnak; A neuronok a tüskeket bemenőként és saját tüskékként adják ki. Inkább újra kódolják az egyik tüske-készletből egy másik tüskék-sorozatba: talán kevesebb vagy lassabb; talán több, vagy gyorsabb; talán egy állandó áramlástól egy oszcillációvá. Tehát a diszkriminatív modellek pontosabban megkérdezik, hogy az idegsejtjeink milyen információt kódolnak újra. De még ha ezt a nézetet is figyelembe vesszük, akkor van egy mélyebb probléma.

Nagyon kevés kivétellel, nincs olyan helyzet, mint a „downstream” neuron. Az X-ben felvett neuronok a bonyolultan vezetékes agy részei, tele végtelen hurkokkal; kimenetük befolyásolja a saját inputjukat. Sőt, ami még rosszabb, az X egyik idegsejtje lejjebb helyezkedik el a többitől: némelyik közvetlenül a többiekbe kerül. Mivel, mint fentebb megjegyeztük, az idegsejtek befolyásolják egymást.

Durva, talán hasznos manifeszt egy idegi adattudomány számára. Hiányos; nem kétséges, hogy valami fent nincs rendben (képeslapon válaszol a szokásos címre). A fenti kísérlet egy nagyon eltérő érdeklődésű laboratóriumi csoport munkájának szintetizálására irányul, de az a közös elképzelés, hogy az ilyen modelleket az ideg adatok nagy halmazán alkalmazzák, hogy megválaszolják az agyok működésével kapcsolatos mély kérdéseket. Ezek közül sok adatlabor, olyan csoport, amely elemzi a kísérleti adatokat saját kérdéseik megválaszolása érdekében; néhányat említeni - Johnathan Párna; Christian Machens; Konrad Kording; Kanaka Rajan; John Cunningham; Adrienne Fairhall; Philip Berens; Cian O’Donnell; Il Memming Park; Jakob Macke; Gasper Tkacik; Oliver Marre. Ööö, én. Mások kísérleti laboratóriumok, amelyeknek erős adattudományi hajlandóságuk van: Anne Churchland; Mark Churchland; Nicole Rust; Krisna Shenoy; Carlos Brody; még sokan elnézést kérek, hogy neveztem el.

Vannak olyan konferenciák, ahol örömmel fogadják ezt a fajta munkát, még ösztönözni is kell. Úton van egy idegi adattudományi folyóirat. Valami épít. Gyere be, az adatok kedves *.

* igen, az adatokat szingulárisnak kellett mondanom, hogy ez a szar vicc működjön. Az a tény, hogy ezt a lábjegyzetet magyarázatként írok, ad némi képet arról, hogy a tudósok elvárják, hogy odafigyeljenek a részleges idegi adatokra.

Többet akar? Kövess minket a Spike-nál

Twitter: @markdhumphries