MT:s framtid

Nu förstår jag! Eller kanske inte …

3 mar, 2020

Datorerna förstår fortfarande inte vad språk är, även om de många gånger kan lura oss att tro att de gör det. Här berättar Mats Dannewitz Linder om en intressant artikel som tar ett helhetsgrepp på det mesta av det som datorer kan användas till när det gäller hantering av tal och skrift och deras innebörd.

/ Foto: iStock.

”Ju mer maskiner talar, och ju mer de tycks förstå människor, desto mer kommer deras användare att vara benägna att tillskriva dem mänskliga egenskaper.”

Detta är en av slutsatserna i den exposé, Finding a voice, över datorernas förmågor när det gäller översättning, taligenkänning och talsyntes som publicerades i tidskriften Economist den 1 maj 2017 – en tid sedan, således, men mycket av det som författaren Lane Greene har att säga är fortfarande aktuellt. Intressant nog är dock just den betydelsefulla slutsats som citeras ovan ingen nyhet: redan när Joseph Weizenbaum 1964 skapade sin datoriserade psykiater Eliza kunde han till sin förskräckelse konstatera just detta fenomen, som stod i bjärt kontrast till hans syfte med Eliza: att påvisa ytligheten i kommunikationen mellan människa och maskin.

Vi har ju på senare år intill leda kunnat läsa om de framsteg som görs på maskinöversättningens område, men det momentet är bara en del av vad det handlar om när folk talar med sina Siri och Alexa och vad de nu kan heta: först måste talarens ord kännas igen, sedan måste de tolkas (översättas), sedan måste systemet hitta ett rimligt svar på den tolkningen, och slutligen ska svaret förmedlas i form av tal. För att det ska bli något vettigt resultat av det hela måste varje länk i denna kedja fungera; så snart någon del fallerar så blir allting tokigt.

“Det är därför möjligt att framtidens ’översättare’ mer kommer att fungera som kvalitetskontrollexperter.”

Men ju bättre sådana system fungerar, desto fler sammanhang kan de tillämpas i – och desto större blir riskerna att jobb går förlorade. Detta gäller förstås i första hand rutinmässiga uppgifter, vilket exempelvis för översättare kanske kommer att innebära att de arbetsuppgifter som blir kvar (eller som kommer till) inte bara är de mest kvalificerade utan kanske också de mest intressanta och stimulerande. Givetvis inte så att översättaren medverkar i den talade kommunikationen mellan människa och dator, men däremot så att hen kan bidra till att tolkningsmomentet fungerar allt bättre. Som Greene påpekar lyckades systemet Watson 2011 besegra två mästare i frågesportprogrammet Jeopardy enbart tack vare att det kunde sannolikhetsbedöma kopiösa mängder potentiella svar på basis av ett antal nyckelord – det var alltså mängden data som var huvudsaken, inte någon sofistikerad tolkning av frågorna. Likheten med den statistikbaserade maskinöversättningen, SMT, är förstås ingen tillfällighet.

Vi har ju på senare år intill leda kunnat läsa om de framsteg som görs på maskinöversättningens område, men det momentet är bara en del av vad det handlar om när folk talar med sina Siri och Alexa och vad de nu kan heta: först måste talarens ord kännas igen, sedan måste de tolkas (översättas), sedan måste systemet hitta ett rimligt svar på den tolkningen, och slutligen ska svaret förmedlas i form av tal. För att det ska bli något vettigt resultat av det hela måste varje länk i denna kedja fungera; så snart någon del fallerar så blir allting tokigt.

Men ju bättre sådana system fungerar, desto fler sammanhang kan de tillämpas i – och desto större blir riskerna att jobb går förlorade. Detta gäller förstås i första hand rutinmässiga uppgifter, vilket exempelvis för översättare kanske kommer att innebära att de arbetsuppgifter som blir kvar (eller som kommer till) inte bara är de mest kvalificerade utan kanske också de mest intressanta och stimulerande. Givetvis inte så att översättaren medverkar i den talade kommunikationen mellan människa och dator, men däremot så att hen kan bidra till att tolkningsmomentet fungerar allt bättre. Som Greene påpekar lyckades systemet Watson 2011 besegra två mästare i frågesportprogrammet Jeopardy enbart tack vare att det kunde sannolikhetsbedöma kopiösa mängder potentiella svar på basis av ett antal nyckelord – det var alltså mängden data som var huvudsaken, inte någon sofistikerad tolkning av frågorna. Likheten med den statistikbaserade maskinöversättningen, SMT, är förstås ingen tillfällighet.

En alternativ metod har utvecklats av företaget Cortical.io. Den går ut på att låta en algoritm för maskininlärning granska tusentals små snuttar information från Wikipedia och därvid inte leta efter speciella ord eller uttryck utan i stället efter mönster. Alltså inte helt olikt den princip som används i den så kallade neurala maskinöversättningen, NMT, som bland annat bygger på att orden tolkas i sina sammanhang. Än så länge handlar det om tolkningar av hela meningar, men för verkligt goda resultat krävs system som kan hantera hela dokument som basis för tolkningen av de enskilda orden och meningarna. (MT-leverantören ModernMT påstår dock att man klarar av detta; resultaten tyder på att det faktiskt kan ligga något i det.)

Greene citerar också Japp van der Meer, grundare av TAUS (Translation Automation User Society), som i ett blogginlägg 2016, The Future Does Not Need Translators, hävdade att MT med tiden kommer att bli tillräckligt bra för att duga i många sammanhang där kraven på översättningens kvalitet är lägre. Det är därför möjligt att framtidens ”översättare” mer kommer att fungera som kvalitetskontrollexperter, som hjälper till att bedöma vilka texter som kräver mer kvalificerade insatser, och som även redigerar måltexterna (alltså ”efterredigering”, vilket vi ju redan har tröskat fram och tillbaka i dessa spalter).

De neurala nätverken – för att återgå till neural MT – kräver som bekant mycket kraftfulla datorer samtidigt som själva datauppsättningarna inte behöver vara lika omfattande som de som krävs för statistisk MT. Å andra sidan återstår problemet med brist på välöversatta parallelltexter för många språkpar, i synnerhet förstås när det gäller små språkområden (”små” inte sett till antalet användare utan till antalet texter). Intressant nog pekar Greene också på skillnaden mellan vad som krävs för översättning av det kortare och enklare språk som används i tal, och som det alltså handlar om när vi ”samtalar” med datorerna. För detta tränar man översättningsprogrammen på sådant som undertexter i filmer och vanliga talade fraser, till skillnad från exempelvis sådant material som tillhandahålls av EU:s många parallelltexter.

Om vi så återgår till den kedja av moment som är inblandade i just samtal med datorer, så påpekar Greene att det verkligt svåra är att koppla ihop de olika momenten/länkarna – det som vi själva klarar så geschwint i våra mänskliga samtal. Men forskarna vet inte hur det går till när vi lyckas hämta och kombinera information från mängder av olika slags kunskaper.

Och om vi någonsin lyckas skapa en form av artificiell men verklig intelligens som faktiskt klarar detta, så är det kanske som Greene säger svårt att tänka sig att ett sådant system inte skulle vilja ta över, eftersom det förmodligen bättre än vi själva skulle förstå vårt bästa. Eller i varje fall tro sig göra det. Något att se fram emot! Eller kanske inte.

SAMMA FÖRFATTARE +

SENASTE INSLAG +