Human-Machine Collaborative Learning

Vadim Tschernezki, Moin Nabi och Tassilo Klein (ML Research Berlin)

Vi har gått in i en ny era, där vi upplever en stadig och stark förbättring av datakraft, lagring och tillgänglighet av big data. Djupt lärande har visat sig vara den idealiska tekniken för att utnyttja dessa trender och etablera sig som en de facto standard i övervakat lärande. Denna typ av inlärning kräver emellertid att uppgifterna ska märkas, vilket generellt medför betydande kostnader för datainsamling. Därför dyker upp alternativa paradigmer som gör det möjligt att maximera potentialen för stora mängder information på ett nytt och tydligt sätt. I detta blogginlägg introducerar vi ett koncept som kombinerar styrkor hos människor och maskiner på ett samarbetsvilligt sätt. Men innan vi går in på mer detaljer, låt oss börja med en berättelse som visar fördelarna med denna strategi.

1997 besegrades Garry Kasparov av en superdator (Deep Blue) i en schackmatch enligt turneringsbestämmelser. Det var ett kännetecken där en regerande världschackmästare besegrades av en maskin. Medan Kasparov fortfarande återhämtade sig från denna upplevelse, hämtade han också inspiration från Deep Blue. Han frågade sig själv: "Tänk om jag kunde spela mot en dator - med en annan dator vid min sida - som kombinerar våra styrkor, mänsklig intuition plus maskinens beräkning, mänsklig strategi, maskintaktik, mänsklig erfarenhet, maskinminne?"

Kasparovs idé om samarbete mellan mänskliga maskiner och schack realiserades framgångsrikt 2005 i en datorassisterad schackturnering där mormästare samarbetade med superdatorer. Resultatet var ganska oväntat: Vinnarna var ett par amatörer av amerikanska schackspelare som körde tre vanliga datorer samtidigt. Till synes i detta fall spelarnas färdigheter att vägleda datorerna spelade en mycket viktig roll. Detta ger upphov till frågan om en sådan typ av samarbete också kan användas för andra uppgifter. Följande stycken kommer att belysa nya tillvägagångssätt i detta sammanhang.

Tillvägagångssätt och trender

Maskiner som medarbetare, inte bara verktyg

När man jämför människor och maskiner är det uppenbart att båda sidor har mycket unika egenskaper och styrkor. Människor är bra på att fatta intuitiva och kreativa beslut baserat på deras kunskap. Datorer är bra på att behandla stora mängder data för att producera kondenserad meningsfull information för att få ny kunskap och fatta bättre beslut. Att dra nytta av synergin mellan dessa distinkta styrkor verkar vara ett naturligt nästa steg.

I forskning har sådana kombinationer utforskats djupare under de senaste åren och upplever gradvis mer fart. En metod föreslogs av Mintz et al. använda omärkta data för att förbättra utvinningsmodeller för relation genom övervakning på avstånd. I synnerhet använder de en mänsklig kurator för att utforma en heuristisk märkningsfunktion och integrera den i utbildningsförfarandet för en klassificerare. Klassificeringen kan sedan extrahera mönster med hög precision för ett ganska stort antal relationer. Eftersom forskarna utformar en märkningsfunktion som approximerar märkningsbeteendet hos en mänsklig annotator, gör den övervakningen "avlägsen".

En annan teknik, utvecklad av Wang et al. inom datorsynsfältet förbättrar detektering av objekt från ommärkta bilder genom självkontrollerad provbrytning. En viktig del av denna metod är baserad på att automatiskt upptäcka och pseudo-märka pålitliga regionförslag för att förbättra objektdetektorn. Detta uppnås genom att klistra in dessa förslag i olika märkta bilder för att utvärdera deras konsistensvärden i olika bildsituationer. Även om dessa bilder är pseudo-märkta, bidrar de effektivt till att förbättra detekteringsnoggrannheten och robustheten mot bullriga prover. Så småningom antecknar båda beskrivna metoderna ommärkta data automatiskt och minskar således mängden mänsklig övervakning i träningsprocessen.

Inkorporera mänsklig vägledning i aktivt lärande

I jämförelse med det föregående konceptet, där datasatsen utvidgas med maskinnoterade data, kan vi också låta eleven välja svåra prover och begära en mänsklig tränare att kommentera dem, därav namnet aktivt lärande. Metoden visar sig vara mycket effektiv, särskilt i situationer med begränsad budgettillgänglighet för utbildning av proverna - experter kan fokusera på utmanande fall medan maskinen tar över majoriteten av prover som vanligtvis är lätta att lösa.

För att förklara intuitionen bakom aktivt lärande, överväga den enkla uppgiften att märka bilder av hundar med avseende på raser. Vi börjar med ett basdatasats som innehåller märkta bilder av hundar. Detta datasätt kan utgöra en utmaning för träning på flera sätt: Det kan mest innehålla bilder av hundar som vetter mot kameran, vilket gör en tränad modell till invariant för hundar som visas från sidan. Det kan också innehålla en obalanserad mängd prover för varje ras. Eller så kan det innehålla utseende som i Belgien Malinois och den tyska herden. I sådana fall skulle både människor och maskiner behöva fler exempel på varje ras för att lära sig att klassificera hundarna korrekt. Aktivt lärande hjälper till att lösa sådana problem.

Föreställ dig att vi skulle kunna uppnå en noggrannhet på 80% med en modell tränad på ett visst basdatasats. Vi får en budget för märkning av upp till 100 nya bilder av 1000 omärkta och syftar till att använda denna budget på ett klokt sätt, eftersom expertstöd för märkning är kostsamt. I stället för att välja 100 prover slumpmässigt, bör vi snarare låta vår maskinelever välja de svåraste proverna eller de som fångar den underliggande datadistributionen bäst och minimerar redundans. Vi låter modellen föreslå de 100 proverna till experten för märkning, för vilken den skulle tilldela etiketter med lågt förtroende eller hög osäkerhet. På detta sätt kan vår maskinelärares noggrannhet öka till 95% efter träning istället för 90% i en installation där slumpmässiga märkta prover användes. Alternativt kan vi också helt enkelt minska mängden märkta data och därmed träna en modell med samma 90% noggrannhet men mindre kostnader.

Adversarial Training: Kombinera det bästa av båda

För att kombinera aktivt lärande och den gradvisa förbättringen av automatisk märkning behöver vi en maskinlärare som består av två modeller. Först en diskriminerande modell för att mäta osäkerheten beträffande förutsägbarhetsnoggrannheten för givna prover (aktivt lärande) och för det andra en generativ modell för att förutsäga sannolikhet för prover (automatisk märkning). För att öka elevens träningseffektivitet strävar vi efter att gemensamt optimera båda modellerna genom motstridsträning. På detta sätt kan den diskriminerande modellen också användas för att tilldela osäkerheter till förutsägelserna för den generativa modellen och i sin tur öka noggrannheten i förutsägelser. En avancerad modell som har fått ett starkt rykte i forskarsamhället och uppfyller de angivna kraven kallas Generative Adversarial Network (GAN).

Human-Machine Collaborative Learning med GAN

Med tanke på ramverket som visas i figuren ovan använder vi först generatoren (G) för att förutsäga sanningen om pseudogrunden för icke-kommenterade data. Eftersom diskrimineraren (D) kan tilldela inte bara osäkerheter till verklig marksanning utan också den som förutses av G, kan vi sortera de omärkta proverna genom svårigheter eller osäkerhet för D. Vi definierar prover vars distribution inte har fångats till fullo av modell ändå lika svårt och låt D föreslå dem till den mänskliga annotatorn. Vi använder de andra enkla proverna med låg osäkerhet för att producera automatiskt kommenterade data med G. Den mänskliga vägledningen resulterar i en starkare D som är anpassad till kraven i den uppgift som läraren anger (aktivt lärande). I sin tur kommer den förbättrade D att trycka på G för att förutsäga sanningen om pseudogrund av högre kvalitet (automatisk annotering). På grund av denna iterativa förbättring utgör GAN: er en naturlig ram för att kombinera människa och maskin i ett gemensamt optimerat träningsprocedur.

Medan science fiction är full av maskiner och robotar som hotar mänskligheten och därmed skapar ett klimat av misstänksamhet, visar begreppet mänskligt samarbete lärande med motstridig utbildning hur maskiner med rimlighet kan komplettera vårt arbete och liv på ett positivt sätt. Det beskrivna tillvägagångssättet har faktiskt en stark potential att omvandla en mängd applikationer till exempel inom hälsosektorn. Särskilt utvecklar vårt team för närvarande en strategi för segmentering av 3D-kardiovaskulär magnetisk resonans (MR) -bilder, vilket är en viktig förutsättning för skapandet av patientspecifika hjärtmodeller och därmed för behandling av komplexa hjärtsjukdomar. Vårt mål är att skapa en modell som lär sig av självgenererade segmenteringar och aktivt föreslår svåra MR-bilder till experter för manuell segmentering. Detta kan betydligt minska kostnaderna och tiden som har använts för detta komplexa förfarande, så att radiologer kan ägna mer tid åt patientvård. Även om detta specifika exempel fint visar konceptets positiva inverkan på samhället, finns det en mängd tillämpningsområden bortom hälsosektorn, som kommer att dra nytta av resultaten av forskning på detta område.

Hitta det fullständiga forskningsdokumentet för MIDL 2019 här: Osäkerhetsdriven semantisk segmentering genom Human-Machine Collaborative Learning