Maskinöversättning

Hur (o)säker är maskinöversättning?

21 jul, 2018

För närmare ett år sedan blev det ståhej när Statoil upptäckte att konfidentiell text hade blivit offentligt tillgänglig på grund av att den hade översatts via translate.com (ej att förväxla med translated.net, som hyser den populära maskinöversättningstjänsten MyMemory).

/ Foto: iStock.

Betyder det att all maskinöversättning (MT) kan röja det material som översätts? Inte nödvändigtvis – det som drabbade Statoil berodde på att man ville få översättningen gratis. Samma sak kan hända när man använder gratistjänsterna Google Translate och Microsofts Bing. Ofta citeras användningsvillkoren för de tjänsterna, där det exempelvis sägs att ”du ger Google världsomfattande tillstånd att använda, spara, återge […] sådant innehåll”, och (för Bing): ”När du delar med dig av Ditt Innehåll till andra, är du införstådd med att de kan komma att, på världsomfattande basis och utan kompensation, använda, spara, registrera, återge […] Ditt Innehåll”. Detta är givetvis en tankeställare, men är inte anledning för professionella översättare att avstå från tjänster för vilka de villkoren inte gäller.

Principen är följande: Om man använder en gratistjänst kommer ens text att användas för att ”förbättra de erbjudna översättningstjänsterna”, dvs. delar av den kommer att visas för andra som använder samma tjänst om de råkar mata in liknande källsegment. Men användningsvillkoren för Googles och Microsofts betaltjänster – Google Cloud Translate API och Microsoft Text Translator API – är helt olika dem för gratistjänsterna.

Google och Microsoft är de stora leverantörerna av MT-tjänster, men det finns många andra (MyMemory, DeepL, Lilt, Kantan, Systran, SDL Language Cloud …). I stort sett samma princip gäller för de flesta. Låt oss titta närmare på dem.

Googles och Microsofts betaltjänster

Google svarar på frågan Will Google share the text I translate with others: ”Vi gör inte innehållet i den text som du översätter tillgänglig för allmänheten, inte heller delar vi den med någon annan, utöver vad som krävs för att tillhandahålla översättningstjänsten. Till exempel kan vi ibland behöva anlita en tredjepartsleverantör för att hjälpa oss med vissa aspekter av våra tjänster, till exempel lagring eller överföring av data. Vi delar inte den text som du översätter med några andra parter, eller gör den offentligt tillgänglig, för några andra ändamål.”

Och här är svaret på den efterföljande frågan, Kommer den text som jag skickar för översättning, själva översättningen, eller annan information om översättningsuppdraget att sparas på Googles servrar? Om svaret är ja, hur länge och var sparas informationen?: ”När du skickar text för översättning till Google måste vi spara den texten under en kort tid för att kunna utföra översättningen och skicka resultatet till dig. Den sparade texten raderas normalt inom några timmar, även om vi emellanåt spar den under längre tid än så medan vi utför avlusning och annan testning. Google loggar också temporärt vissa metadata om översättningsuppdrag (till exempel tidpunkten för uppdraget samt dess omfattning) för att förbättra våra tjänster och motverka missbruk. Av säkerhets- och tillförlitlighetsskäl fördelar vi lagringen av data över många maskiner på olika platser.”

För Microsoft Text Translator API är upplysningarna mer rakt på sak (på deras sida API and Customization: Confidentiality): ”Microsoft delar inte de data du skickar in för översättning med någon”. Och på sidan No-Trace: ”Kunddata som skickas för översättning via Microsoft Translator Speech API, Microsoft Translator Text API och textöversättningsfunktionerna i Microsoft Office-produkterna skrivs inte till något beständigt minne. Det görs ingen registrering av den inskickade texten, eller någon del därav, på någon av Microsofts datacentraler. Texten används inte heller i syfte att förbättra tjänsterna.”

Andra större MT-leverantörer

För DeepL – en välrenommerad tjänst som dock inte erbjuder svenska som språk – gäller samma skillnad mellan gratis och debiterad tjänst. För den förra anges – på sidan Privacy Policy DeepL, under Texts and translations – DeepL Translator (free) – bl.a. att ” Vi spar dina texter och översättningarna under en begränsad tid för att förbättra vår översättningsalgoritm. Om du gör några korrigeringar av de översättningar vi föreslår, kommer även de korrigeringarna att överföras till vår server för att de ska kunna kontrolleras vad gäller korrekthet och för att vid behov uppdatera den översatta texten enligt dina ändringar.”

För betaltjänsten gäller följande (angivet på samma sida men under Texts and translations – DeepL Pro): ”När du använder DeepL Pro sparas de texter du skickar in, samt deras översättningar, aldrig, och de används bara i den det krävs för att skapa översättningen. När du använder DeepL Pro använder vi inte dina texter för att förbättra kvaliteten på våra tjänster.” Och intressant nog verkar det som att DeepL anser att deras tjänster uppfyller de krav som ställs av EU-kommissionen (se nedan); därom kan man läsa här.

Lilt är lite annorlunda på så sätt att tjänsten är gratis; ändå tillämpar man strikta datasäkerhetsprinciper: ”Du förfogar själv över ditt arbete. Översättningsförslag skapas av Lilt med hjälp av en kombination av våra parallelltexter och dina egna översättningsresurser. När du lägger upp ett översättningsminne eller översätter ett dokument, kopplas de översättningarna enbart till ditt konto. Översättningsminnen kan delas mellan dina projekt, men de delas aldrig med andra översättare eller tredje part.”

MyMemory – en mycket populär tjänst som även den är gratis, trots att den baseras på betaltjänsterna hos Google, Microsoft och DeepL, använder även sina egna översättningsarkiv och erbjuder möjligheten att använda översättarens egna översättningsminnen (TM). Ens eget TM-material är oåtkomligt för alla andra användare, och vad gäller MyMemorys eget arkiv har man följande att säga om användarvillkoren (Service Terms and Conditions of Use):

”Vi delar, säljer eller överför aldrig ’personliga uppgifter’ till tredje part utan användarens uttryckliga medgivande. Vi använder inte ’privata bidrag’ för att skapa träffar i översättningsminnen åt andra användare av MyMemory, och vi publicerar inte sådana bidrag i MyMemorys offentligt tillgängliga arkiv. Bidragen till arkivet, vare sig de är ’publika data’ eller ’privata data, samlas in, bearbetas och används av Translated för att skapa statistik, nya tjänster och förbättra befintliga tjänster.” En fråga man då ställer sig är förstås vad som menas med att ”förbättra” befintliga tjänster. Men MyMemory säger till mig att det innebär att man förbättrar sina MT-modeller, och att källsegmenten aldrig används för detta.

Och här är vad sekretesspolicyn för SDL Language Cloud säger: ”SDL vidtar alla rimliga åtgärder för att skydda din information mot obehörig åtkomst. Källmaterial röjs aldrig för tredje part. Dina lexikon är enbart för ditt personliga bruk och delas inte med andra användare av SDL Language Cloud. SDL kan ge åtkomst till din information om SDL plc har skäl att förmoda att sådant röjande rimligen krävs för att (1) efterleva tillämplig lag, förordning eller juridiska förfaranden, (2) upptäcka eller förhindra bedrägeri, och (3) hantera problem med säkerhet eller teknik.”

Är detta hela sanningen?

De flesta av de här villkoren är otvetydiga, även om Googles lämnar visst utrymme för olika tolkningar. MyMemorys uttalande om att förbättra befintliga tjänster kan också verka tvivelaktigt, och det svar jag har fått (se ovan) finns ju inte i som skriftlig utfästelse någonstans. Vidare gäller förstås att eftersom MyMemory även använder Google så gäller samma tvekan för MyMemory som för Google.

Dessutom har vi ju problemet med företag som Google och Microsoft att man inte kan få dem att svara på frågor om man vill ha förtydliganden. Och det är väldigt svårt att verifiera den sekretess som de säger sig ge, vilket betyder att principen ”trust but verify” är i stort sett omöjlig att tillämpa (och det gäller inte bara Google och Microsoft).

Hur som helst finns det insticksprogram för i varje fall de större CAT-verktygen som ger möjlighet att anonymisera (maskera) data i källtexten som man skickar till Googles och Microsofts betaltjänster, vilket innebär ytterligare säkerhet. Samma möjlighet är i viss mån inbyggd i MyMemory.

Men även om man aldrig skickar tillbaka sina målsegment, hur är det med de källdata som man skickar till betaltjänsterna? Raderas de, eller sparas de så att en annan användare skulle kunna träffa på dem även om de inte har någon måltext kopplad till dem?

Ja och nej. De sparas i allmänhet, men – också i allmänhet – i serverloggar, oåtkomliga för användare, och bara för analysändamål, främst statistiska. Se t.ex. MyMemorys uttalande ovan.

Min slutsats är därför att så länge man inte skickar tillbaka sina egna översättningar till MT-leverantören, och man använder en betaltjänst (eller Lilt eller MyMemory), och man anonymiserar känsliga data, bör man kunna känna sig rimligt trygg. Men givetvis kan kunden ändå förbjuda en att använda sådana tjänster. I så fall kan man ändå använda MT men offline; se nedan.

Vad tror folk om detta?

Litar då byråerna och översättarna på Google m.fl.? Njae… I en högst amatörmässig enkät – som bara berörde Googles och Microsofts betaltjänster – visar det sig att två av fem byråer gör det i varierande grad (”Våra jurister anser att [Microsofts] försäkran är tillräcklig för att vi ska kunna använda MT-motorer som resurs även för konfidentiella texter och texter med känsliga persondata”), medan tre inte gör det. Av 13 frilansar svarar 10 nej (inklusive ”vågar inte”, ”osäker”, ”tvivlar”, ”inte tillförlitliga”) medan tre är mer positiva (”måste lita på att leverantörerna håller vad de lovar”, ”sannolikt säkra”, ”borde vara tillförlitliga”). Ännu fler svarar att de inte alls använder MT (”kommer aldrig att betala för MT-tjänster!”).

EU och GDPR

Rent allmänt gäller för översättningar åt EU följande klausul i kommissionens anbudsspecifikationer (min översättning; har inte hittat någon svensk version):

”Leverantörer som avser att använda webbaserade verktyg eller annan webbaserad tjänst (t.ex. molnet) för att verkställa [ramverksavtalet] måste säkerställa full efterlevnad av villkoren i denna anbudsförfrågan när sådana tjänster används. Speciellt måste villkoren vad gäller sekretess respekteras vid varje webbaserad process, och Unionens immateriella och industriella rättigheter måste alltid skyddas.” Kommissionen anser att tillämpningen av denna klausul är mycket bred och även omfattar användningen av webbaserade verktyg.

“Så länge man inte skickar tillbaka sina egna översättningar till MT-leverantören, och man använder en betaltjänst och man anonymiserar känsliga data, bör man kunna känna sig rimligt trygg.”

En följd av detta är att översättarna anmodas att inte använda ”öppna översättningstjänster” (vad nu det kan innebära) på grund av risken för att inte ha kontroll över innehållet. I stället har kommissionen sitt eget MT-system, e-Translation (se artikeln ELRC på datajakt).

Å andra sidan är det möjligt att DG Translation inte är helt uppdaterade vad gäller de nuvarande – ovan citerade – användningsvillkoren för Google Cloud Translate API and Microsoft Text Translation API, och i så fall kan man möjligen komma att ändra sin policy. Men för närvarande är regeln den att innan en leverantör använder webbaserade verktyg för ett EU-översättningsuppdrag så måste man skaffa ett bemyndigande för detta (hittills har inga sådana förfrågningar inkommit).

Men så har vi ju den nyligen införda GDPR, dataskyddsförordningen. För översättare är den möjligen ett mindre problem eftersom den enbart avser personuppgifter. Men när källtexten innehåller sådana kräver förordningen att översättaren har ett specifikt avtal med varje underleverantör (”personuppgiftsbiträde”) om hanteringen av data, och fram till dess att MT-leverantörerna uttryckligen talar om för alla användare hur de uppfyller förordningen lär de inte kunna användas i sådana sammanhang. Se även artikeln GDPR – hiss eller diss?.

Offline-tjänster… och framtiden

Det finns några MT-program som är avsedda för användning offline (som insticksprogram i CAT-verktyg), vilket förstås innebär bästa tänkbara säkerhet (frånsett de risker som eventuell överföring via e-post innebär, samt den risk som eventuell lagring av översättningsdata i molnet kan medföra). Nackdelen – förutom det faktum att man är begränsad till sina egna TM – är att de brukar vara rätt dyra i inköp.

De som jag har hittat (utgående från insticksprogram till Trados Studio) är i första hand  Slate Desktop translation provider, Transistent API Connector och Tayou Machine Translation Plugin. Det bör tilläggas att jag hittills bara har tittat på MT-leverantörer som tillämpar statistisk maskinöversättning eller dess vidareutveckling neural maskinöversättning, NMT. Men det ser ut som att det regelbaserade offline-programmet PROMT Master 18 (som dock inte erbjuder svenska) också ger rätt goda resultat.

Avslutningsvis skulle jag hur som helst säga att om vi litar på vad MT-leverantörerna påstår om sin sekretess så bör för de flesta syften de betalda översättningstjänsterna som nämns ovan vara säkra, särskilt om man ser till att inte skicka tillbaka sina egna målsegment. Men jag tror ändå att både översättare och deras kunder bör studera de risker som beskrivs, och de råd som ges, av Don DePalma i artikeln Free machine translation can leak data. Den handlar visserligen om gratis MT, men varje översättare som vill vara uppriktig i relationerna med sina kunder – och samtidigt utnyttja fördelarna även med betald MT – gör klokt i att studera dem.

SENASTE INSLAG +