Lärande att komma ihåg: En synaptisk plasticitetsdriven ram för kontinuerligt lärande

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Människor har en exceptionell förmåga att lära sig kontinuerligt under hela sin livstid. Förmågan att tillämpa tidigare lärda kunskaper i nya situationer, miljöer och uppgifter utgör nyckelfunktionen i mänsklig intelligens. På biologisk nivå tillskrivs detta ofta förmågan att selektivt lagra och styra minnen under en tillräckligt lång tidsperiod i neurala förbindelser som kallas synapser. Till skillnad från biologiska hjärnor har konventionella konstgjorda neurala nätverk (ANN) inte förmågan att kontrollera styrkan hos synaptiska förbindelser mellan neuroner. Detta leder till extremt korta minne i ANN: er - den effekten som kallas katastrofisk glömma.

Under det senaste decenniet riktade sig mest av forskningen inom området för konstgjord intelligens (AI) mot att överskrida prestandan på mänsklig nivå på isolerade, tydligt definierade uppgifter som att spela datorspel, sortera skräppostmeddelanden, klassificera katter från hundar och erkänna tal, bara för att nämna några. Som ett resultat kan de flesta av AI som omger oss i vårt dagliga liv kallas Artificial Narrow Intelligence eller svag AI. Stark AI, däremot, hänvisar till människoliknande AI som kan utföra alla intelligenta uppgifter, samtidigt som de kan lära sig kontinuerligt, glömma selektivt, samtidigt som de snabbt anpassar sig till nya uppgifter och använder tidigare erfarenheter. Dessa egenskaper började nyligen uppmärksamma av AI-forskare.

Varför ständigt lärande? Nyckeln till ständigt föränderliga scenarier

Att glömma och sakna kunskapsöverföring är en av de viktigaste utmaningarna på vägen från svag AI till stark AI. Till skillnad från människor, som glömmer selektivt, glömmer maskiner katastrofalt. Följaktligen, medan ett "barn lär sig att krypa, gå och sedan springa" (~ Dave Waters), skulle AI helt glömma att krypa när det lärde sig att gå, och det skulle glömma att gå när det lärde sig att springa. Innan vi granskar möjliga lösningar på utmaningen med ständigt livslångt lärande, låt oss överväga ett enkelt exempel på en AI-baserad klädkatalogsökning.

En maskininlärningsmodell tränad på en datasats som innehåller kläder från säsong (A) skulle fungera extremt bra när du söker bland denna säsongs (A) produkter. När säsongen ändras kan modetrender dock ändras också. När modetrenderna ändras kan nya produktkategorier, modeller och stilar läggas till i katalogen (t.ex. högklackade i stället för sneakers, långa jackor istället för korta jackor etc.). Modellen tränad på data från den första säsongen (A) skulle inte fungera bra när man söker igenom artiklar som har lagts till under den nya säsongen. Faktum är att helt enkelt utbildning av vår modell på data från den nya säsongen skulle leda till att katastrofalt glömmer förmågan att söka bland artiklarna från föregående säsong.

Vanligt sätt att lösa glömma?

En av de tidigaste teknikerna för att minska katastrofala glömmar i ANNs är känd som replay of "repetition". Fortsätter vi med vårt katalogsökningsexempel, för att behålla den information som lärdes under den första säsongen, går maskininlärningsmodellen helt enkelt omskolad från grunden av blandningen av data från båda säsongerna, dvs tidigare lärda kunskaper spelas upp till den modell som tränas på uppgifterna om den nya säsongen. Generellt skulle omskolning av modellen varje gång datadistributionen "skiftar" resultera i exploderande datalagringskostnader och ansträngningar som krävs för att upprätthålla intelligenta system, för att inte tala om den dramatiska minskningen av systemets skalbarhet. Slutligen kan lagring av rådata från tidigare uppgifter i stor utsträckning kränka kraven för dataskydd i den verkliga applikationen.

I detta sammanhang har många forskare fokuserat på att simulera neural plasticitet i ANN och därmed mildra behovet av att lagra rå data (1,2,3,4,5,6). Detta görs vanligtvis i den så kallade “task-inkremental” -uppsättningen, där varje ny tillagd databit betraktas som en separat uppgift och informationen om uppgiftsetiketten antas vara tillgänglig vid testtiden. När vi återgår till katalogsökningsexemplet krävs detta att informationen om säsongsetiketten (uppgiftsetiketten) ska inkluderas i varje fråga. följaktligen skulle klassificering av en viss plaggartikel kräva en a-priori information om säsongen den tillhör (uppgiftsetikett). Att ha en sådan ”uppgiftsetikett” skulle automatiskt minska utgången från modellen till de klasser som tillhör den antagna uppgiften. I vårt exempel ovan skulle det således endast begränsa modellen till den specifika säsongen. Dessa antaganden kan sällan uppfyllas i verkliga tillämpningar.

En separat arbetslinje hanterar ett mer verkligt scenario. I detta ”klass-inkrementella” scenarie utvidgas modellens klassificeringsproduktion kontinuerligt när nya klasser lärs. I detta sammanhang är en gemensam strategi att införa en så kallad generativ minneskomponent (t.ex. 7,8,9). I stället för att lagra rådata, utbildas en generativ modell som GAN eller VAE (se tidigare bloggpost) för att generera erfarenheter som ska spelas upp igen. I katalogexemplet skulle följaktligen artiklar (med motsvarande klass) från den första säsongen genereras och återuppspelas till modellen.

Befintliga generativa tillvägagångssätt förlitar sig mest på idén om djup generativ uppspelning där den generativa modellen repeteras om på blandningen av för närvarande tillgängliga verkliga data (ny säsong) och replay-episoder som syntetiserats av den föregående generatorn (förra säsongen). Men förutom att de är mycket ineffektiva i träningen är dessa tillvägagångssätt kraftigt benägna att få en effekt som kallas "semantisk drift". "Semantisk drift" avser kvaliteten på bilder som genereras vid varje minnesuppspelning beroende på de tidigare genererade bilderna, vilket orsakar mottaglighet för felutbredning och därmed resulterar i en förlust av kvalitet och glömmer.

Föreslagen lösning - Plasticity-inlärning i ett generativt minnesnätverk

Hittills har vi lärt oss att återupplevelse av erfarenheter är en enkel och användbar strategi för att övervinna glömmer i ANNs i allmänhet, och särskilt i den utmanande ”klass-inkrementella” situationen. Ändå är denna strategi endast tillämplig när replay-episoderna inte hålls som rå data utan i form av relevanta och effektivt lagrade minnesmönster.

För att ta itu med detta föreslog vi i vårt senaste arbete en metod som kallas Dynamic Generative Memory (DGM) - ett ändamålsenligt kontinuerligt lärande ramverk som simulerar synaptisk plasticitet med lärbara hårda uppmärksamhetsmasker tillämpade på parametrarna för ett generativt nätverk (GAN) . Hård uppmärksamhetsmaskering identifierar nätverkssegmenten som är viktiga för att memorera aktuell information och förhindrar deras uppdateringar under det framtida inlärningen. Nätverket stimuleras ytterligare för att återanvända tidigare lärda kunskaper, som lagrades i sådana ”reserverade” nätverkssegment som ger positiv överföring av kunskap. Därför kan kunskap om katalogartiklar från föregående säsong återanvändas effektivt i vårt produktkatalogexempel när vi lär dig om nya säsongs artiklar. Sammantaget kan DGM lära sig om nya uppgifter utan att behöva spela tillbaka gammal kunskap och därmed förbättra träningseffektiviteten och bli mer robusta inför katastrofala glömmar.

Följaktligen kan DGM generera informativa och olika prover av tidigare lärda kategorier i varje steg av kontinuerligt lärande som visas på bilden nedan. Återuppspelning av dessa prover till uppgiftslösningsmodellen (D) ger en modell som kan bibehålla hög klassificeringsprestanda på alla klasser som har setts under den kontinuerliga inlärningsprocessen.

Om skalbarhet

Med tanke på begränsad nätverksstorlek är det oundvikligt att med ett växande antal uppgifter att lära sig, blir modellkapaciteten tappad vid någon tidpunkt. Det här problemet förvärras när man simulerar neural plasticitet med hård uppmärksamhetsmaskering på parameternivå. För att garantera tillräcklig kapacitet och konstant uttryckseffekt i det underliggande nätverket, håller DGM antalet "fria" parametrar (dvs. en gång som effektivt kan uppdateras) genom att utöka nätverket med exakt antalet parametrar som var reserverade för det föregående uppgift. Den viktigaste idén här är att med en given positiv överföring av kunskap (dvs. återanvändbarhet av parametrar), bör antalet parametrereservationer för nya uppgifter minska över tiden och nätverkstillväxten bör mättas vid en viss punkt.

För teknisk information om DGM-metoden hänvisas till hela dokumentet om arXiv.

Även om det fortfarande är långt borta från att lösa frågan om katastrofala glömmer helt och trots flera begränsningar, visar DGM effektiv nätutveckling och robusthet mot katastrofisk glömma i en utmanande "klass-inkrementell" installation. Vi tror att den presenterade forskningen kan hjälpa oss att främja vår förståelse av kontinuerligt lärande - en väsentlig förmåga på vägen mot att uppnå stark AI, som kan lära sig (och glömma) adaptivt och progressivt över tid.

Vårt arbete med livslångt lärande presenteras på CVPR 2019.

Om författaren: Oleksiy Ostapenko, associerad forskningsingenjör vid SAP-maskinlärandeforskningsteamet, arbetar med utmaningarna för kontinuerligt livslångt lärande som diskuteras i detta inlägg i sin artikel som kommer att presenteras vid årets CVPR.