AI - Maskinöversättning

Workshop om språkteknologi för ett flerspråkigt Europa

12 jun, 2024

Vad ska de stora språkmodellerna tränas med för att bli duktiga på alla sorters svenska? Lagstiftning sätter käppar i hjulet för insamlandet av träningsdata.

Johan Wullt (Europeiska kommissionen i Sverige) i samtal med Magnus Sahlgren (AI Sweden).

Den 16 maj 2024 anordnade Institutet för språk och folkminnen (Isof) en workshop om språkteknologi på Europahuset i Stockholm där Europaparlamentets informationskontor och EU-kommissionens representation i Sverige finns. Språkbanken Sam och AI Sweden berättade tillsammans med sakkunniga från EU-kommissionen om det arbete som pågår inom projektet European Language Data Space (LDS).

”Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI.”

Målgruppen för workshoppen var företag och organisationer som hanterar språkliga data och som vill använda AI för att gynna innovativ verksamhetsutveckling. European Language Data Space (LDS) är ett ramverk vars syfte är datadelning och skapandet av språkteknologi inom EU för att skapa nya möjligheter till kommunikation över språkgränserna. Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI. Det påståendet gick som en röd tråd genom de olika programpunkterna. Ett annat återkommande tema för dagen var vikten av samarbete kring språkdata mellan olika aktörer. Och att lagändringar krävs. Lagstiftningen ligger långt efter och behöver anpassas efter en ny verklighet beträffande datatillgångar.

Efter Johan Wullts välkomstord (Europeiska kommissionen i Sverige) tog Phillippe Gelin och Georg Rehm över. Phillippe är sektorchef för flerspråkighet vid DG/CONNECT på Europeiska kommissionen och Georg är forskningsledare på DFKI och koordinator för LDS. De berättade mer utförligt om LDS och beskrev ett system där deltagare ska kunna dela och samarbeta kring datatillgångar på ett sätt som stämmer överens med relevanta lagar och förordningar. En infrastruktur för att skapa en pålitlig marknadsplats för datatillgångar där aktörer från både den privata och offentliga sektorn kan utbyta, handla med och samarbeta kring data. Än så länge finns LDS bara på papperet men det finns ett stort behov av att ta tillvara på och dra nytta av våra europeiska språkdata. Enligt Phillippe och Georg är utvecklingen av LDS även en värdefull motvikt till techjättar som OpenAI, Google och Meta och där LDS kan innebära en möjlighet att ta sig in på marknader där språkdata ännu inte har utvunnits.

Rickard Domeij berättade om AI och språkteknologi ur ett språkpolitiskt perspektiv. Rickard är doktor i datorlingvistik vid Stockholms universitet och ansvarar för språkteknologiarbetet på Språkrådet vid Institutet för språk och folkminnen (Isof). Rickard lyfte fram Språkrådets uppdrag att främja utvecklingen av språkteknologin för språken i Sverige, inklusive de nationella minoritetsspråken. Rickard betonade vikten av att språkteknologin utvecklas även för de mindre språken, annars riskerar dessa att stängas ute från det digitala samhället. Språkbanken SAM gör Isofs arkivmaterial (text- och talmaterial) tillgängligt för både forskare och allmänhet. Isof är en språkpolitisk myndighet och Rickard menar att LDS kan bidra till en infrastruktur för de mindre språkens datatillgångar där andra språkresurser än stora språkmodeller ibland kan vara mer aktuellt.

”Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket”

Magnus Sahlgren och Danila Petrelli från AI Sweden berättade om GPT för svenska och projektet TrustLLM. Magnus är doktor i datorlingvistik och forskningsledare för språkteknologin och Danila är Data Manager för språkprojekten. AI Sweden är ett svenskt nationellt center för tillämpad artificiell intelligens vars syfte är att påskynda användningen av AI till förmån för alla i samhället. Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket (GPT står för Generative Pre-Trained Transformer och här kan du läsa mer om AI i olika artiklar på temat från SFÖ-SAT). GPT-SW3 är ett exempel på en av de första stora generativa språkmodellerna för svenska och bygger på samma teknik som OpenAI:s Chat GTP-4. Till skillnad från OpenAI:s modeller bygger AI Swedens modeller på öppen licens. För tillfället utvecklar AI Sweden nästa generations språkmodell för svenska. Den kommer att vara multimodal vilket innebär att den utöver text även förstår tal och bilder. Det europeiska samarbetsprojektet TrustLLM syftar till att utveckla språkmodeller för de germanska språken och en språkmodell som bygger på transparens och tillit för utvecklingen av en hållbar språkmodell.

”Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI.”

Anne-Marie Colliander Lind (till höger) från Språkföretagen.

Ett annat intressant inslag var Anne-Marie Colliander Lind från branschorganisationen Språkföretagen. Hon belyste hur olika typer av språkteknologi har varit en självklarhet för aktörer inom språkindustrin ända sedan 1990-talet. I mer än 30 år har språkbranschen legat i framkant när det gäller språkteknologi för att säkerställa bästa nyttan av tillgängliga lösningar, kvalitet, säkerhet, konsekvent terminologi och tidseffektiva leveranser. AI-tekniken är bara ytterligare ett redskap vi måste lära oss att bemästra och att använda den på rätt sätt. En större utmaning, menar Anne-Marie, är kundernas högt ställda förväntningar på AI. Hon berättade om språkföretag som blivit av med stora kunder i samband med AI-boomen men också att ”baksmällan kom snabbt” som hon uttryckte det. Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI. En annan programpunkt var Kungliga biblioteket som inte bara är ett bibliotek utan även en myndighet som har till uppdrag att samla in och bevara Sveriges kulturarv. Leonora Vesterbacka har en doktorsexamen i fysik och jobbar på Kungliga biblioteket som Senior Data Scientist på KB-labb.

KB-labb skulle kunna ses som en svensk språkmodellsfabrik då Kungliga biblioteket har laglig tillgång till den största samlingen text- och ljuddata i Sverige. Hon berättade bland annat om KB-labbs språkmodeller och tal-till-textmodeller. Inom det svenska AI-ekosystemet är KB-labb mest känt för sina samlingsbaserade språkmodeller som används brett av AI-utvecklare. Modellerna har i dagsläget laddats ned över tre miljoner gånger och går att hitta på huggingface för de som vill.

”Generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar.”

Agnes Stenbom från Schibsted (Nordens största mediegrupp) berättade hur Schibsted använder AI i sin verksamhet. Agnes är chef för innovations- och inkluderingslabbet IN/LAB på Schibsted och industridoktorand inom AI och journalistik vid KTH. Schibsted använder AI-teknik för ett ökande antal produkter och tjänster men användandet är knutet till policyer för att säkerställa ett ansvarsfullt användande av AI. Agnes menar att generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar. Hon ser AI-teknik som en möjlighet snarare än som ett hot när den får samverka med mänsklig kompetens.

Dagen avslutades med en paneldiskussion om hanteringen av data för språken i Sverige. Hur går det? Vilka utmaningar finns? Arbetet med att få fram träningsdata från en svensk kontext för att skapa bra svenska språkmodeller och andra språkresurser stöter ofta på hinder. Både Magnus och Leonora menade att det främst är lagstiftningen som står i vägen. Även om data för exempelvis minoritetsspråken finns, kan inte denna data doneras hur som helst legalt sett. Leonora lyfte även fram Kungliga biblioteket och reglerna kring deras datainsamling. Dessa regler innebär att om en fysisk version av en text finns, ska denna skickas in i stället för den digitala versionen. Det innebär ett stort slöseri med tid, resurser och pengar.

Magnus Sahlgren (till vänster) från AI Sweden, Anne-Marie Colliander Lind (i mitten) från Språkföretagen och Leonora Vesterbacka (till höger) från KB-labb.

Anne-Marie belyste språkföretagens perspektiv där bred expertis beträffande bland annat kommunikation och medielokalisering finns, men vi äger inte den data vi processar. Det innebär att våra datatillgångar inte kan delas vidare på grund av sekretess. Att skicka upp en opublicerad årsrapport eller ett pressmeddelande om Apples kommande release av en ny iPhone (det finns andra varumärken) i en språkmodell som inte kan garantera säkerheten för materialet skulle inte vara populärt. Här kom en idé upp under en av fikapauserna om att det skulle finnas teknik för att datumstämpla data – den kan vara låst under en viss tidsperiod men sedan är det fritt fram att använda den som träningsdata.

”Det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata.”

Sammanfattningsvis kan även samarbetet mellan olika aktörer lyftas fram som en utmaning i dagsläget. Insatser för bättre samverkan mellan myndigheter, offentliga verksamheter, den privata sektorn och små och stora företag behöver göras. Intresset finns bland eldsjälar i systemen, men det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata. En workshop om språkteknologi för ett flerspråkigt Europa kan ju vara en bra början och ett steg i rätt riktning.

Konferenstolkarna Georgina Marko (till vänster) och Emma Lindahl (till höger) arbetade under delar av dagen och gjorde ett utmärkt jobb. De kände inte till SFÖ-SAT, men det gör de nu.

POPULÄRA INSLAG +

Vilka jobb kommer att ersättas av AI, och vilka yrken kan räkna m...

Vilka yrken ligger i farozonen? Läs om Almegas nya rapport och om översättare och tolkars spådda yrk...

8 maj, 2025

Fruktstund i paradiset: Om Adam och Eva och översättandets (...

Hur såg Hieronymus på översättande? Och var det egentligen ett äpple som Eva åt?

22 okt, 2023

Efter Linguacoms konkurs – vad händer nu?

11 jul, 2023

Allt du velat veta om AI men inte vågat fråga

Välbesökt minikonferens i SFÖ-SAT:s regi

13 dec, 2023

Utgör AI ett hot mot eller en hjälp för tolkar?

Lägesbeskrivning och framtidsspaning: ”Tolkning och AI – vilka frågor behöver vi ställa?”

28 okt, 2023

Nordic Translation & Interpretation Forum

Årets upplaga av Nordic Translation & Interpretation Forum (NTIF) i Malmö

8 dec, 2022

Bror Hjorth – grovhuggen Uppsalason

Med Engelbrekt och Jesus som revolutionära ideal

8 mar, 2024

Att tända en brasa eller anlägga en brand

28 dec, 2022

ANDRA ARTIKLAR +

SFÖ-SAT-konferensen 2025: En lyckad föreställning

Konferensgruppen 2025 summerar ett lyckat evenemang

19 jun, 2025

Kognitiva perspektiv på tolkning och översättning

Att ”krypa in” i tolkars och översättares arbetsminne

22 maj, 2025

Inre dialog för facköversättare

Funderingar kring inre dialog och källspråkets specifika vikt.

1 feb, 2024

Nytt språkmuseum tar form

Språkvetaren Sofia hoppas att snart få förverkliga drömmen om ett språkmuseum

9 jun, 2025

Olagliga tolkavgifter i Blekinge stoppade

Orimligt vårdtolkbeslut

16 dec, 2024

Bland kräftor och jävligt långa dagar

Besök hos våra kollegor: Hur ser livet ut på den skönlitterära sidan?

8 jun, 2025

Nytt språknätverk i norra Europa blir allt mer konkret

Kvalité, arvoden och utbildning fokusområden för nordiskt-baltiskt nätverk

6 dec, 2023

Fyra frågor till konferenstalarna – Larissa Ekonoja

Inför SFÖ-SAT-konferensen i Uppsala den 19–20 april ställer eV några frågor till de medlemmar som ska...

28 feb, 2024

SAMMA FÖRFATTARE +

Ulrika Borking

Översätter från engelska, danska och norska till svenska. Driver sitt eget företag, Ulingo. Hon kan nås på e-post.

AI och översättning – vad betyder ChatGPT för språ...

Vad är ChatGPT och generativ AI? Är ChatGPT bara ytterligare ett verktyg i verktygslådan?

17 sep, 2023

Agatha Christie på svenska – ett (m)orddrama

Brittisk whodunnit och svenskt höstrusk.

6 feb, 2023

SENASTE INSLAG +

Förtvivla ej – skapa ett nytt narrativ istället!

Vi översättare ska inte svartmåla vår framtid, menar Diego Cresceri

5 jun, 2026

Statlig utredning föreslår tolkavgifter och förbud mot ba...

Förslag: efter 6 år i Sverige måste du betala för att få tolk hos Försäkringskassan

2 jun, 2026

Vad håller vi på med egentligen? Om tolkens roll i svenska r...

”En duktig tolk är en tolk som inte märks” – men är det verkligen så?

8 maj, 2026

Förmåner och rabatter för medlemmar i SFÖ-SAT

Du vet väl om att du som medlem i Sveriges Facköversättare och Auktoriserade Tolkar (SFÖ-SAT) har tillgång till en rad fö...

6 maj, 2026

Blir du lönsam lille vän?

Vad behöver nya (och gamla) översättare för utbildning mot bakgrund av GenAI?

28 apr, 2026

Vårda din röst och din hörsel

Matnyttiga tips för oss som använder öron och stämband hela dagen lång

21 apr, 2026

Medicinska texter – vad står det egentligen?

Språket i läkarjournaler – både hårt tuktat och vildvuxet

19 apr, 2026

Hur går det för våra tyska kollegor?

Klimatet i den tyska språkindustrin enligt en enkät av BDÜ

11 apr, 2026

Konsten att ordna en konferens

Varje vår händer det. Simsalabim, nu blir det konferens för SFÖ-SAT igen! Men hur går det till? Hur gör man så att evenem...

17 mar, 2026

Grammatikdagen 20 mars

Högtidsdag för språkintresserade

10 mar, 2026

Översättningsstandarder – gäller krav och ansvar, inte resu...

Kan verkligen översättning standardiseras? Nej, översättning kan förstås inte standardiseras. Ändå finns det standarder f...

6 mar, 2026

Relationen mellan översättare och projektledare – hur ser den ut?...

När den frilansande översättaren (eller granskaren) i sin yrkesvardag har kontakt med byråer sker det normalt via en pro...

13 feb, 2026

Praktik för översättare i Bryssel

Dags att söka översättarpraktik på EU:s ministerråd!

1 feb, 2026

Hur (och till vad nytta) definieras kvaliteten på...

Vad som i förstone kan verka vara ett enkelt svar på rubrikens fråga visar sig vid närmare betraktande vara ytterst kom...

26 jan, 2026

Lali Michaelis poesi på svenska: Ett poem om Gaza och två andra p...

Poesin uppstår och poesin smeker

23 jan, 2026

Workshop om språkteknologi för ett flerspråkigt Europa

Ulrika Borking

”Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI.”

”Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket”

”Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI.”

”Generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar.”

”Det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata.”

RELATERADE INSLAG +

Ingemar Strandvik om AI och översättning

Det neurala nätverket översättare emellan

Översättning inom EU – hur fungerar det?

Nimdzi tar tempen på språkindustrin

POPULÄRA INSLAG +

Vilka jobb kommer att ersättas av AI, och vilka yrken kan räkna m...

Fruktstund i paradiset: Om Adam och Eva och översättandets (...

Efter Linguacoms konkurs – vad händer nu?

Allt du velat veta om AI men inte vågat fråga

Utgör AI ett hot mot eller en hjälp för tolkar?

Nordic Translation & Interpretation Forum

Bror Hjorth – grovhuggen Uppsalason

Att tända en brasa eller anlägga en brand

ANDRA ARTIKLAR +

SFÖ-SAT-konferensen 2025: En lyckad föreställning

Kognitiva perspektiv på tolkning och översättning

Inre dialog för facköversättare

Nytt språkmuseum tar form

Olagliga tolkavgifter i Blekinge stoppade

Bland kräftor och jävligt långa dagar

Nytt språknätverk i norra Europa blir allt mer konkret

Fyra frågor till konferenstalarna – Larissa Ekonoja

SAMMA FÖRFATTARE +

Ulrika Borking

AI och översättning – vad betyder ChatGPT för språ...

Agatha Christie på svenska – ett (m)orddrama

SENASTE INSLAG +

Förtvivla ej – skapa ett nytt narrativ istället!

Statlig utredning föreslår tolkavgifter och förbud mot ba...

Vad håller vi på med egentligen? Om tolkens roll i svenska r...

Förmåner och rabatter för medlemmar i SFÖ-SAT

Blir du lönsam lille vän?

Vårda din röst och din hörsel

Medicinska texter – vad står det egentligen?

Hur går det för våra tyska kollegor?

Konsten att ordna en konferens

Grammatikdagen 20 mars

Översättningsstandarder – gäller krav och ansvar, inte resu...

Relationen mellan översättare och projektledare – hur ser den ut?...

Praktik för översättare i Bryssel

Hur (och till vad nytta) definieras kvaliteten på...

Lali Michaelis poesi på svenska: Ett poem om Gaza och två andra p...