
eTranslate – spännande nykomling på marknaden för MT-motorer
Nu har våra vänner i Bryssel åstadkommit ett API för EU:s eTranslation.
5 maj, 2022Neural maskinöversättning – vad är det egentligen?
Knappt har vi börjat lära oss leva med statistisk maskinöversättning förrän ett nytt orosmoln/en räddande ängel/en hajp (stryk det som ej önskas) tornar upp sig vid horisonten – nämligen neural maskinöversättning, NMT. Många tecken tyder på att NMT kommer att dominera MT-världen under de närmaste åren och oavsett vad vi tycker om den saken gör vi klokt i att orientera oss om tekniken.
För att kunna blicka framåt är det en bra idé att först titta i backspegeln. Lingvister och dataloger arbetade med regelbaserad MT (RBMT) under hela den senare delen av 1900-talet, trots den tongivande Noam Chomskys dubier och trots den nedgörande ALPAC-rapporten till Vita huset 1966. Det minst dåliga resultatet av dessa ansträngningar är SYSTRAN, som Google Translate – GT (som vi alla älskar att hata) använde fram till 2007.
Ren maskinöversättning inom en extremt begränsad domän (meteorologi – närmare bestämt översättning av väderrapporter mellan engelska och franska) föddes redan på 1980-talet i Kanada – det välkända METEO-systemet. För att tillåta ett bredare ämnesområde än att bara prata väder krävdes enorm lagringskapacitet och processorkraft till snabba statistiska operationer på stora textmassor. Sådana resurser blev tillgängliga till rimlig kostnad först en bit in på vårt millennium. 2007 övergick GT till sådan ”statistisk maskinöversättning”, en teknik som på intet sätt analyserar källtexten utan bara jämför den med fraser som finns lagrade i det osannolikt stora minnet och väljer den vanligast förekommande. En mera korrekt term för denna extremt minnesintensiva process är ”frasbaserad MT”, eller PBMT. PBMT fungerar i mångt och mycket som när ett barn lär sig tala – det kan komma fullt korrekta fraser utan att barnet, eller MT-motorn, har en aning om vad det handlar om. All översättning som PBMT presenterar är översättning som har godkänts och publicerats, av någon, någonstans, någon gång … (eller som barnet ofta har hört sina föräldrar säga – försiktighet anbefalles förresten!). En uppenbar svaghet med PBMT är faran för rundgång – MT-motorerna kommer att referera tillbaka till fraser som de själva har skapat, med följd att kvaliteten sjunker.
Hardcore-lingvister när fortfarande hopp att den klassiska idén om maskinöversättning – grammatisk och semantisk analys av källspråket, följt av syntes till motsvarande betydelse med korrekt syntax på målspråket – ska bära frukt. Det kanske den kommer att göra en vacker dag, men maskinöversättning är ett hett ämne som det ligger stora pengar i, och industrin har inte tid att vänta på språkvetenskapen. Samtidigt förefaller PBMT ha nått vägs ände – tekniken kan förvisso bli snabbare men inte inherent bättre.
Inom AI-världen har lösningar baserade på neurala nätverk – ett sätt att efterlikna hur den mänskliga hjärnan fungerar – länge uppfattats som lovande. Det har legat nära till hands att tillämpa sådana teorier just på översättning. 2016 började neurala MT-lösningar komma i allmänt bruk och det stora genomslaget kom 2017. Alla vi som i någon mån använder GT, yrkesmässigt eller privat, använder idag neural maskinöversättning – NMT.
För att jämföra NMT med den tidigare statistiskt baserade PBMT-principen behöver vi dels titta på hur översättningsprinciperna skiljer sig, dels på hur resultatet ser ut hos användaren.
Principerna skiljer sig totalt. PBMT fungerar i någon mån som en papegoja. Systemet kan upprepa en fras det har sett tillräckligt många gånger, men naturligtvis utan att på något plan analysera källtexten. NMT behöver också ett stort textmaterial att lära sig av. Som tumregel brukar nämnas ett TM på 2 miljoner segment av hög kvalitet krävs för att ett NMT-system ska bli funktionellt. Till skillnad mot PBMT, som bara känner igen strängar – ju fler och längre desto bättre – delar NMT upp källtexten i betydligt mindre bitar och kodar om dessa till matematiska representationer (vektorer). Systemet är något av en svart låda som vanliga dödliga saknar insyn i, men man kan säga att källtextfragmenten skickas från lager till lager av neurala noder där de jämförs med tänkbara översättningar och även med hur ord och fragment på målspråket oftast hänger ihop (kollokationer). När pusslet efter ett obekant antal iterationer är färdiglagt, baserat på bitarnas mest sannolika lägen, avkodas vektorerna till ord i målspråket. Det som händer i den svarta lådan är extremt komplicerat, och utvecklarna av NMT-motorer är måttligt intresserade av att förklara det. Om NMT-systemet dessutom får återkoppling från avnämarna av översatta texter kan det, till skillnad mot PBMT-system, efter hand bli allt bättre – i synnerhet inom begränsade domäner. Man kan alltså förvänta sig att NMT-system hos språkföretag som lärs upp på en specifik kunds produkter och terminologi och som får återkoppling från efterredigeringsledet blir mycket träffsäkrare än vad GT och Bing kan bli.
Hur ser det då ut hos användarna? Vi har lärt oss hur resultatet från PBMT ser ut – längre eller kortare sekvenser av hyggligt sammanhängande text, men sekvenserna är taffligt kombinerade och emellanåt dyker det upp termer som är helt uppåt väggarna. En van efterredigerare ser snabbt hur PBMT-systemet har ”resonerat”, varför felen har uppstått (det finns en anledning att GT länge översatte det engelska ordet ”congeniality” till ”secret agent” på svenska) och kan oftast snygga till måltexten utan att behöva konsultera källtexten så mycket.
NMT-resultatet är lurigare att hantera, dels därför att grammatik och syntax vid en första anblick kan te sig fullt acceptabel (särskilt om ett av språken i paret är engelska), dels därför att vi, till skillnad mot vad som är fallet med PBMT, inte har en susning om vad som hände i den svarta lådan. Måltexten förefaller mycket bättre än vad vi såg från GT för två år sedan, men skenet bedrar. NMT kan oväntat plantera in termer och fraser som inte har något med saken att göra, om än syntaktiskt korrekta – och vi vet inte hur det gick till. Efterredigerare till NMT-översatta texter måste därför minutiöst jämföra måltexten med källtexten – och det är mycket lättare hänt att fel slinker med när de presenteras syntaktiskt korrekt.
Icke desto mindre visar undersökningar på PBMT- och NMT-översättningar av samma texter att NMT minskar den nödvändiga efterredigeringsinsatsen för att lyfta texten till acceptabel nivå, men ställer högre krav på efterredigerarna för att städa bort potentiellt allvarliga fel.
Liksom var fallet med den tidigare PBMT-tekniken sker översättning mellan två icke-engelska språk i regel med engelska som interlingua. Denna reläöversättning sänker givetvis kvaliteten, men jag har ändå noterat en avsevärd förbättring av GT:s översättningar från tyska och italienska till svenska, med början under 2017. Dessutom kan NMT i princip och utan stor ansträngning tillämpas på godtyckliga språkpar, utan den enorma insats av minnesresurser som skulle krävas för att skapa en statistisk PBMT-motor inom ett nytt språkpar.
Statistisk MT/PBMT har spelat en avgörande roll för att visa översättarvärlden och samhället i stort att MT är en faktor att räkna med och inte längre ett dåligt skämt. PBMT-principen har haft ett kort och intensivt liv som nu närmar sig sitt slut. Under de närmaste åren satsar språkindustrin på NMT, och kommer kanske även att få upp ögonen för lingvisters och språkvetares trägna arbete sedan ett drygt halvsekel med att bena ut språkliga knepigheter och hitta överförbara mönster som kan komma NMT tillgodo.
Samtidigt kan vi konstatera att efterredigering är en yrkesbeteckning som har kommit för att stanna – och det är sannerligen inte simpel språktvätt det handlar om, utan det är en avancerad yrkesverksamhet som kräver kompetens om såväl mänsklig översättning som MT och som kan utföras på flera mer eller mindre väl definierade nivåer. Se Mats Dannewitz Linders artikel om efterredigering.
Vi lever i en spännande värld, och om gamle Chomsky inte är död så lever han än!
Här presenterar vi programmet för SFÖ:s konferens 2022 med temat 'Extra allt'.
4 mar, 2022Traduttore Traditore.
22 sep, 2021Nils Håkansons bok om översättning vinner Augustpriset i kategorin årets svenska fackbok.
10 jan, 2022Från skånska till arabiska – för att välkomna och förklara kulturella skillnader.
25 sep, 2021Vi intervjuar Ian Giles.
14 dec, 2021Återupplev det exakta ögonblicket när vår ordförande förklarade vår nya nättidning som officiellt öpp...
22 nov, 2021Traduttore Traditore.
22 jun, 2021Jag upplever ofta att jag hamnat i ett mellanförskap på grund av min flerspråkighet.
17 jan, 2022Kom ihåg att det tar tid att bli specialist.
30 jan, 2021Martina Langenskiöld om utmaningarna mellan dessa två språk i Norden.
12 apr, 2022Tillsammans är vi starkare.
26 apr, 2021Bakom en väl fungerande organisation finns det alltid en väl fungerande styrelse.
25 feb, 2021Isabella Holmin har undersökt hur kulturella referenser i spanskspråkiga filmer återges i svensk öv...
14 aug, 2021Tre snabba frågor till en översättare som jobbar som teknisk skribent på Semcon i Lund.
14 dec, 2021Några tankar om Brexit, översättare och corona.
5 jan, 2021Den 23 april trycker vi gasen i botten mot framtiden.
8 mar, 2021Översättare från engelska, tyska, italienska, norska och danska till svenska, främst inom teknik och vetenskap. Lärare på TÖI vid Stockholms universitet. Driver Tecnita AB. Du kan kontakta honom här.
Del 2 – Att jobba som medietextare för ett medieföretag.
28 jun, 2022En bild säger mer än tusen ord – en inblick i årets ”återträffarkonferens” i Värmland.
21 jun, 2022På scenen: En alldeles tvättäkta Augustpristagare inom vårt eget gebit, minsann!
16 jun, 2022Poängsätt kunderna för att hitta de lämpligaste för dig.
9 jun, 2022Lär känna Maria och Maria – styrelsens senaste tillskott.
7 jun, 2022Det har nog inte undgått någon att Sveriges Radio felaktigt översatt Ebba Buschs uttalande om islamister.
2 jun, 2022Yrket där översättare har en fördel.
31 maj, 2022Angela Ahola – om faktorerna som påverkar första intrycket om oss.
25 maj, 2022Del 1 - Jan Pedersen – Vem lägger märke till undertexter?
23 maj, 2022På sista dagen möttes en grupp glada deltagare för att se staden från vattnet.
20 maj, 2022Kan man spendera tid? Nej, säger vän av ordning, för det är en anglicism och inte riktig svenska.
19 maj, 2022Styrelsen informerar.
17 maj, 2022Under vår underbara konferens i Karlstad visade radarparet Johan och Björn att joddlande inte bara är en sak för öst...
12 maj, 2022Men vad gör projektledaren när hen inte mejlar dig?
10 maj, 2022På föreningens årsmöte fattades ett historiskt beslut: SFÖ tar in SAT.
2 maj, 2022