A mély tanulás korlátozásai az AI kutatásban

A mesterséges intelligencia a mély tanulásnak köszönhetően hihetetlen látványosságokat ért el, azonban még mindig elmarad az emberi képességektől.

Roberto Iriondo, 2019. február 12-én - utoljára frissítve: 2019. április 7

Képforrás: Gépi tanulás memoárjai [11]

A gépi tanulás egy részének mély megtanulása révén az elmúlt évtized során számos gyakorlati alkalmazásban szuper-emberi pontosságot biztosított. A forradalmian új ügyfelek élményétől, gépi fordítástól, nyelvfelismeréstől, önálló járművektől, számítógépes látástól, szöveges generálástól, beszédmegértéstől és sok más AI-alkalmazástól kezdve [2].

A gépi tanulással ellentétben, ahol egy AI-ügynök gépi tanulási algoritmusok alapján tanul az adatokból, a mély tanulás egy neurális hálózat architektúrán alapul, amely hasonlóan működik az emberi agyban, és lehetővé teszi az AI-ügynök számára a bemeneti adatok elemzését - hasonló struktúrában. az emberek dolgához. A mély tanulási modellek nem igényelnek algoritmusokat annak meghatározására, hogy mit kell tenni az adatokkal, ami annak a rendkívüli mennyiségű adatnak köszönhető, amelyet mi emberekként gyűjtünk és fogyasztunk - amelyet viszont a mély tanulási modellek táplálnak [3].

A „mélyreható” tanulás „hagyományos” típusai az előre-továbbító modulok (gyakran konvolúciós neurális hálózatok) és az ismétlődő neurális hálózatok (a memóriaegységekkel, mint például az LSTM [4] vagy a MemNN [5]) eltérő keverékét tartalmazzák. Ezeknek a mély tanulási modelleknek az észlelésre való képessége korlátozódik, például hosszú levonási láncok elvégzésére vagy a válaszokhoz való módszer racionalizálására. A számítás lépéseinek számát korlátozza az előremenő hálózatok rétegeinek mennyisége, és az időtartam alatt egy ismétlődő idegi hálózat visszahívja a dolgokat.

Ezen a ponton ott van a félreértés problémája. Amikor mélyreható tanulási modellt képeztek ki, nem mindig világos, hogy miként jár a döntéshozatal [6]. Számos beállításban ez egyszerűen nem elfogadható, függetlenül attól, hogy megtalálja a megfelelő megoldást; Vagy feltételezzük, hogy egy bank az AI segítségével értékeli hitelképességét, és utána megtagadja a kölcsönt, számos államban vannak olyan törvények, amelyek kimondják, hogy a banknak meg kell magyaráznia, hogy miért - ha a bank mélyreható tanulási modellt alkalmaz a kölcsön-döntéshozatalhoz , hitelosztályuk (valószínűleg) nem tudnak egyértelmű magyarázatot adni arról, hogy miért tagadták meg a kölcsönt.

1. ábra | Az ismétlődő neurális hálózat (RNN) által létrehozott képaláírások ebben az esetben az RNN-t arra képezik, hogy azonosítsák a magas szintű képaláírásokat képaláírásokba. [1]

A legfontosabb a józan ész hiánya. A mély tanulási modellek lehetnek a legjobbak a minták észlelésében. Mégsem tudják megérteni, hogy a minták mit jelentenek, és lényegesen kevésbé indokolják őket. A mélyreható tanulási modellek értelmezéséhez meg kell változtatnunk azok felépítését annak érdekében, hogy ne hozzanak létre egyetlen outputot (azaz egy kép értelmezhetőségét, egy bekezdés fordítását stb.), Hanem a teljes alternatív outputok (azaz a mondatok különböző módon lefordíthatók). Az energiabázismodellek ezt akarják elvégezni: adj pontszámot a értelmezendő változók minden elképzelhető konfigurációjához.

Az ilyen gyengeségek fokozatosan aggodalomra adnak okot az AI miatt a nagyközönség körében, különösen mivel az autonóm járművek, amelyek összehasonlítható mélyreható tanulási stratégiákat alkalmaznak az utak navigálására [7], visszaesésekkel és halálos áldozatokkal járnak [8]. A nyilvánosság elkezdte mondani, hogy talán van valami probléma az AI-vel - egy olyan világban, ahol a tökéletességre számítanak; és bár az önálló vezetésű autók mély tanulása bebizonyította, hogy hihetetlenül kevesebb veszteséget okozna, mint az embervezetőknek, addig az emberiség nem fog teljesen bízni az autonóm járművekben, amíg semmilyen baleset nem vesz részt.

Ezenkívül a mély tanulás jelenlegi formájában abszolút korlátozott azon az alapon, hogy gyakorlatilag minden gyümölcsöző felhasználása [19] [20] [21] [22] [23] [24] [25] [26] [27 ] [28] [29] [30] [31] [32], felügyelt gépi tanulást használnak az emberi megjegyzésekkel ellátott kommentárokkal, amelyet jelentős gyengeségként említettek - ez a függőség megakadályozza a mély idegi hálózatok alkalmazását olyan problémákban, ahol a bemeneti adatok szűkös. Fontos, hogy felfedezzük azokat a megközelítéseket, amelyekkel kiterjedt ideghálókat készíthetünk „nyers”, nem kommentált adatokból, a valós világ szabályszerűségeinek felkutatása érdekében. Miben a mély tanulást és az egymással versengő gépi tanulási technikákat kombinálva [17] [18] lehet a választ keresni.

A lakosság - sajnos a közvélemény - szempontjából nem rendelkezik tisztességes megértéssel a mély tanulásról. Ha a mély tanulásban végzett munka csak az AI kutatólaboratóriumaira korlátozódna, az lenne egy dolog. A mély tanulási technikákat azonban manapság minden alkalmazásban alkalmazzák. Aggasztó az a magabiztosság, amelyet a technológiai vezetők és a marketingszakemberek mélyreható technikákkal szemben támasztanak alá. Noha a mély tanulás hihetetlen teljesítmény, fontos, hogy ne csak feltárjuk erősségeit, hanem a cselekvési terv kidolgozása érdekében összpontosítsunk és tisztában legyenek gyengeségeivel is.

Mrinmaya Sachannak az írásbeli mesterséges intelligencia felé című kutatása [33] érdekes példát mutat annak feltárására, miként - bár a mély tanulásnak köszönhetően figyelemre méltó fejleményeket láthattunk a mesterséges intelligencia területén - a mai AI-rendszerekben továbbra is hiányzik az emberi intelligencia belső képe. Ezután belemerül és reflektálja, mielőtt az emberiség elkezdi olyan AI-rendszereket építeni, amelyek rendelkeznek emberi képességekkel (érvelés, megértés, józan ész), hogyan értékelhetjük az AI-rendszereket az ilyen feladatok során? - a valódi intelligens rendszerek alapos megértése és fejlesztése érdekében. Kutatása javasolja a szabványosított tesztek alkalmazását az AI rendszerekben (hasonlóan a tesztekhez, amelyeket a hallgatók a formális oktatási rendszerben való előrehaladáshoz tesznek) két keretrendszer felhasználásával, az AI rendszerek továbbfejlesztése érdekében, figyelemre méltó előnyökkel, amelyek szociális formában alkalmazhatók. jó és oktatás.

A mély tanulásról és a döntéshozatalról van-e igazi elméleti megértésünk egy idegi hálózatról?

A mesterséges ideghálózatok, amelyek megpróbálják utánozni az agy architektúráját, mesterséges neuronok (csomópontok) sokféle kapcsolattal rendelkeznek, maga a hálózat nem algoritmus, hanem olyan keret, amelyen a gépi tanulási algoritmusok különféle képesek működni a kívánt feladatok elérése érdekében. . Az ideghálózat-tervezés alapjai szinte teljes egészében heurisztikán alapulnak, kis hangsúlyt fektetve a hálózati architektúra megválasztására, sajnos nincs határozott elmélet, amely megmondja, hogyan kell dönteni a megfelelő neuronszámot egy adott modellhez. Vannak azonban elméleti munkák a neuronok számáról és a modell teljes kapacitásáról [12] [13] [14], mindazonáltal ezek alkalmazása ritkán praktikus.

Stanford Professsor, Sanjeev Arora élénk megközelítést alkalmaz a mély idegi hálózatok általánosításának elméletére [15], amelyben megemlíti a mély tanulás általánosító misztériumát: Miért képesek jól képzett mély idegi hálózatok a korábban még nem látott adatokra? vagyis mondjuk azt, hogy egy mély tanulási modellt képzel az ImageNet segítségével, és véletlenszerű címkékkel ellátott képeken képzi, a nagy pontosság lesz az eredmény. A magasabb általánosítást levezető normál normalizálási stratégiák használata azonban nem ennyire segíti [16]. Ennek ellenére a kiképzett idegháló még mindig nem tudja megjósolni a láthatatlan képek véletlenszerű címkézését, ami viszont azt jelenti, hogy az idegi hálózat nem általánosít.

2. ábra | Egy képpontos támadások, amelyek sikeresen becsaptak három típusú mély idegi hálózatot, amelyeket a CIFAR-10 adatkészletre továbbítottak. [9] [10] | Az eredeti címkék feketék, míg a támadás kimeneti címkéi kék színben vannak, a megfelelő bizalmi intervallummal [9].

A közelmúltban a kutatók képesek voltak feltárni egy mély idegi hálózati architektúra sérülékenységét azáltal, hogy kis árnyalatokat adtak a nagy képadatkészlethez, hogy megváltoztassák (nagy valószínűséggel) az idegi hálózat modellkimeneteit [9]. A tanulmány számos más kutatót követ, amelyek azt mutatják, hogy a hasonló törékenység meghiúsítja az outputokat, a bemenet kis árnyalatainak alapján. Az ilyen típusú eredmények nem ösztönzik a bizalmat, azaz önálló járművekben a környezet hajlamos mindenféle árnyalatra (eső, hó, köd, árnyékok, hamis pozitív elemek stb.) - most képzelje el, hogy egy látványrendszert egy kis változás a vizuális bemenetében. Biztos vagyok abban, hogy Tesla, Uber és még sokan mások azonosították ezeket a kérdéseket, és dolgoznak egy terv kidolgozásán, hogy foglalkozzon velük, azonban fontos, hogy a nyilvánosság is tudatában legyen ezeknek.

3. ábra | Egy pixel sikeres támadások a mély idegi hálózatok (DNN) ellen. Először az eredeti címke, majd a zárójelek támadásának eredményei [9]

Manapság technológia vesz körül minket. Az otthoni intelligens eszközöktől kezdve az okostelefonok zsebekbe, az asztalunkon lévő számítógépek az útválasztókhoz, amelyek csatlakoznak az internethez, stb. Ezen technológiák mindegyikében az alap architektúrák megfelelően működnek, köszönhetően az épített szilárd műszaki alapelveknek. a mély matematika, a fizika, az elektromos, a számítógépes és szoftverfejlesztés stb. területén, és mindezen területeken - statisztikai tesztelés és minőségbiztosítás éveiben, ha nem évtizedeiben.

Fontos megjegyezni, hogy a mély tanulási modelleknek nagy mennyiségű adat szükséges a kezdeti modell kiképzéséhez (annak érdekében, hogy nagy pontosságú eredmények legyenek, és ne lehessen túlméretezni, ne feledje, hogy az egymást követő feladatok megtanulhatók az átviteli tanulásból), és végső soron anélkül, hogy alaposan megértsük, mi történik a „mély idegi építészetben”, gyakorlatilag és elméletileg nem bölcs dolog hosszú távon fenntartható technológiai megoldásokat építeni.

Köszönetnyilvánítás:

A szerző köszönetet szeretne mondani Matt Gormley-nek, a Carnegie Mellon Egyetem asszisztensének, valamint Arthur Chan-nak, a fő beszédépítésznek, az AIDL.io kurátorának és a Deep Learning Specialist-nak a cikk konstruktív kritikájáért.

NYILATKOZAT: A cikkben megfogalmazott vélemények a szerzők véleményét tükrözik, és nem képviselik a Carnegie Mellon Egyetem, sem a szerzővel (közvetlenül vagy közvetetten) társult más vállalatok véleményét. Ezeknek az írásoknak nem célja, hogy végtermékek legyenek, inkább a jelenlegi gondolkodás tükröződése, és egyben a vita és a fejlesztés katalizátora.

Találhat engem a Saját webhelyen, Közepes, Instagram, Twitter, Facebook, LinkedIn vagy a webdizájn cégemen.

Ajánlott történetek:

Irodalom:

[1] Mélyreható tanulás áttekintése | Yann LeCun, Yoshua Bengio, Geoffrey Hinton http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

[2] A mély tanulás 30 lenyűgöző alkalmazása | Yaron Hadad | http://www.yaronhadad.com/deep-learning-most-amazing-applications/

[3] Bevezetés a mély tanuláshoz Bhiksha Raj | Carnegie Mellon Egyetem http://deeplearning.cs.cmu.edu/

[4] Az LSTM hálózatok megértése | Christopher Olah | http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Memóriabővített neurális hálózatok | Facebook AI kutatás https://github.com/facebook/MemNN

[6] A sötét titok a mesterséges intelligencia szívében | MIT technológiai áttekintés https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[7] MIT 6.S094: Mélyreható tanulás önjáró autók számára Massachusettsi Technológiai Intézet https://selfdrivingcars.mit.edu/

[8] Saját járművezetéssel járó halálesetek listája | Wikipedia | https://en.wikipedia.org/wiki/List_of_self-driving_car_fatalities

[9] Egy pixel támadás a mély ideghálózatok bolondságáért | Jiawei Su, Danilo Vasconcellos Vargas, Kouichi Sakurai | https://arxiv.org/pdf/1710.08864.pdf

[10] Kanadai Institute for Advanced Research Adatkészlet CIFAR-10 adatkészlet | https://www.cs.toronto.edu/~kriz/cifar.html

[11] Képek, a Machine Learning Memoirs jóvoltából | https://mlmemoirs.xyz

[12] Mély ideghálózati kapacitás | Aosen Wang, Hua Zhou, Wenyao Xu, Xin Chen | Arxiv | https://arxiv.org/abs/1708.05029

[13] A neurális hálózatok kapacitásának jellemzése algebrai topológia felhasználásával | William H. Guss, Ruslan Salakhutdinov | Gépi tanulás tanszék, Carnegie Mellon Egyetem Számítástechnikai Iskola https://arxiv.org/pdf/1802.04443.pdf

[14] Információelmélet, komplexitás és neurális hálózatok | Yaser S. Abu-Mostafa | Kaliforniai Technológiai Intézet http://work.caltech.edu/pub/Abu-Mostafa1989nnet.pdf

[15] Általánosítási elmélet és mélyhálók, bevezetés | Sanjeev Arora | Stanfordi Egyetem | http://www.offconvex.org/2017/12/08/generalization1/

[16] A mély tanulás megértéséhez újragondolásra van szükség Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals | https://arxiv.org/pdf/1611.03530.pdf

[17] A mély tanulás korlátozásai a versenytársak környezetében | Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Berkay Celik Z., Ananthram Swami | A IEEE 2016. évi IEEE biztonsági és adatvédelmi szimpóziumának előadásai. Saarbrucken, Németország | http://patrickmcdaniel.org/pubs/esp16.pdf

[18] Gépi tanulás versenytársak környezetében | Patrick McDaniel, Nicolas Papernot és Z. Berkay Celik | Pennsylvaniai Állami Egyetem http://patrickmcdaniel.org/pubs/ieeespmag16.pdf

[19] Alex Krizhevsky, Ilya Sutskever és Geoffrey E. Hinton. Imagenet osztályozás mély konvolúciós neurális hálózatokkal. In Advances in Neural Information Processing Systems, 2012.

[20] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato és Lior Wolf. Mélység: Az emberi szint teljesítménye közötti rés megszüntetése az arc-ellenőrzés során. A számítógépes látásról és mintázatfelismerésről szóló IEEE konferencia folytatásában, 1701–1708, 2014.

[21] Karen Simonyan és Andrew Zisserman. Nagyon mély konvolúciós hálózatok a nagyméretű képfelismeréshez. Előrelépések a neurális információfeldolgozó rendszerekben, 2015.

[22] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich és társai. Megy tovább a konvolúciókkal. Az IEEE számítógépes látás és mintázatfelismerés (CVPR) konferencia folytatásában, 2015.

[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren és Jian Sun. Mélyedés az egyenirányítókban: Az imagenet osztályozásban az emberi szintű teljesítmény meghaladása. A számítógépes látásról szóló IEEE nemzetközi konferencia folytatásában, 1026–1034. Oldal, 2015.

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren és Jian Sun. Mély maradék tanulás a képfelismeréshez. Az IEEE számítógépes látásról és mintázatfelismerésről szóló konferencia (CVPR) folytatásában, 770–778, 2016.

[25] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath és társai. Mély neurális hálózatok az akusztikus modellezéshez a beszédfelismerésben: Négy kutatócsoport közös nézete. IEEE Signal Processing Magazine, 29 (6): 82–97, 2012.

[26] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates és társai. Mély beszéd: Teljes beszédfelismerés méretezése. arXiv preprint arXiv: 1412.5567, 2014.

[27] Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu és Geoffrey Zweig. Emberi paritás elérése a beszélgető beszédfelismerésben. arXiv preprint arXiv: 1610.05256, 2016.

[28] Chung-Cheng Chiu, Tara N Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J Weiss, Kanishka Rao, Katya Gonina, et al. Korszerű beszédfelismerés szekvencia-sorozat modellekkel. arXiv preprint arXiv: 1712.01769, 2017.

[29] Dzmitry Bahdanau, Kyunghyun Cho és Yoshua Bengio. Neurális gépi fordítás az igazítás és fordítás közös megtanulásával. A tanulási reprezentációk nemzetközi konferenciáján, 2015.

[30] Ilya Sutskever, Oriol Vinyals és Quoc V Le. Sorozat a szekvencia-tanuláshoz neurális hálózatokkal. In Advances in Neural Information Processing Systems, 3104–3112, 2014.

[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey et al. A Google neurális gépi fordító rendszere: áthidalja a szakadékot az emberi és gépi fordítás között. arXiv preprint arXiv: 1609.08144, 2016.

[32] Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li és mások. Emberi paritás elérése az automatikus kínai-angol hírfordításon. arXiv preprint arXiv: 1803.05567, 2018.

[33] Mrinmaya Sachan, Az írástudó mesterséges intelligencia felé, a Carnegie Mellon Egyetem gépi tanulási osztálya, https://pdfs.semanticscholar.org/25c5/6f52c528112da99d0ae7e559500ef7532d3a.pdf