AI - Maskinöversättning

Workshop om språkteknologi för ett flerspråkigt Europa

12 jun, 2024

Vad ska de stora språkmodellerna tränas med för att bli duktiga på alla sorters svenska? Lagstiftning sätter käppar i hjulet för insamlandet av träningsdata.

Johan Wullt (Europeiska kommissionen i Sverige) i samtal med Magnus Sahlgren (AI Sweden). Johan Wullt (Europeiska kommissionen i Sverige) i samtal med Magnus Sahlgren (AI Sweden).

Den 16 maj 2024 anordnade Institutet för språk och folkminnen (Isof) en workshop om språkteknologi på Europahuset i Stockholm där Europaparlamentets informationskontor och EU-kommissionens representation i Sverige finns. Språkbanken Sam och AI Sweden berättade tillsammans med sakkunniga från EU-kommissionen om det arbete som pågår inom projektet European Language Data Space (LDS).

”Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI.”

Målgruppen för workshoppen var företag och organisationer som hanterar språkliga data och som vill använda AI för att gynna innovativ verksamhetsutveckling. European Language Data Space (LDS) är ett ramverk vars syfte är datadelning och skapandet av språkteknologi inom EU för att skapa nya möjligheter till kommunikation över språkgränserna. Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI. Det påståendet gick som en röd tråd genom de olika programpunkterna. Ett annat återkommande tema för dagen var vikten av samarbete kring språkdata mellan olika aktörer. Och att lagändringar krävs. Lagstiftningen ligger långt efter och behöver anpassas efter en ny verklighet beträffande datatillgångar.

Efter Johan Wullts välkomstord (Europeiska kommissionen i Sverige) tog Phillippe Gelin och Georg Rehm över. Phillippe är sektorchef för flerspråkighet vid DG/CONNECT på Europeiska kommissionen och Georg är forskningsledare på DFKI och koordinator för LDS. De berättade mer utförligt om LDS och beskrev ett system där deltagare ska kunna dela och samarbeta kring datatillgångar på ett sätt som stämmer överens med relevanta lagar och förordningar. En infrastruktur för att skapa en pålitlig marknadsplats för datatillgångar där aktörer från både den privata och offentliga sektorn kan utbyta, handla med och samarbeta kring data. Än så länge finns LDS bara på papperet men det finns ett stort behov av att ta tillvara på och dra nytta av våra europeiska språkdata. Enligt Phillippe och Georg är utvecklingen av LDS även en värdefull motvikt till techjättar som OpenAI, Google och Meta och där LDS kan innebära en möjlighet att ta sig in på marknader där språkdata ännu inte har utvunnits.

Rickard Domeij berättade om AI och språkteknologi ur ett språkpolitiskt perspektiv. Rickard är doktor i datorlingvistik vid Stockholms universitet och ansvarar för språkteknologiarbetet på Språkrådet vid Institutet för språk och folkminnen (Isof). Rickard lyfte fram Språkrådets uppdrag att främja utvecklingen av språkteknologin för språken i Sverige, inklusive de nationella minoritetsspråken. Rickard betonade vikten av att språkteknologin utvecklas även för de mindre språken, annars riskerar dessa att stängas ute från det digitala samhället. Språkbanken SAM gör Isofs arkivmaterial (text- och talmaterial) tillgängligt för både forskare och allmänhet. Isof är en språkpolitisk myndighet och Rickard menar att LDS kan bidra till en infrastruktur för de mindre språkens datatillgångar där andra språkresurser än stora språkmodeller ibland kan vara mer aktuellt.

Fikapaus på Europahuset.

”Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket”

Magnus Sahlgren och Danila Petrelli från AI Sweden berättade om GPT för svenska och projektet TrustLLM. Magnus är doktor i datorlingvistik och forskningsledare för språkteknologin och Danila är Data Manager för språkprojekten. AI Sweden är ett svenskt nationellt center för tillämpad artificiell intelligens vars syfte är att påskynda användningen av AI till förmån för alla i samhället. Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket (GPT står för Generative Pre-Trained Transformer och här kan du läsa mer om AI i olika artiklar på temat från SFÖ-SAT). GPT-SW3 är ett exempel på en av de första stora generativa språkmodellerna för svenska och bygger på samma teknik som OpenAI:s Chat GTP-4. Till skillnad från OpenAI:s modeller bygger AI Swedens modeller på öppen licens. För tillfället utvecklar AI Sweden nästa generations språkmodell för svenska. Den kommer att vara multimodal vilket innebär att den utöver text även förstår tal och bilder. Det europeiska samarbetsprojektet TrustLLM syftar till att utveckla språkmodeller för de germanska språken och en språkmodell som bygger på transparens och tillit för utvecklingen av en hållbar språkmodell.

”Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI.”

Anne-Marie Colliander Lind (till höger) från Språkföretagen.

Ett annat intressant inslag var Anne-Marie Colliander Lind från branschorganisationen Språkföretagen. Hon belyste hur olika typer av språkteknologi har varit en självklarhet för aktörer inom språkindustrin ända sedan 1990-talet. I mer än 30 år har språkbranschen legat i framkant när det gäller språkteknologi för att säkerställa bästa nyttan av tillgängliga lösningar, kvalitet, säkerhet, konsekvent terminologi och tidseffektiva leveranser. AI-tekniken är bara ytterligare ett redskap vi måste lära oss att bemästra och att använda den på rätt sätt. En större utmaning, menar Anne-Marie, är kundernas högt ställda förväntningar på AI. Hon berättade om språkföretag som blivit av med stora kunder i samband med AI-boomen men också att ”baksmällan kom snabbt” som hon uttryckte det. Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI. En annan programpunkt var Kungliga biblioteket som inte bara är ett bibliotek utan även en myndighet som har till uppdrag att samla in och bevara Sveriges kulturarv. Leonora Vesterbacka har en doktorsexamen i fysik och jobbar på Kungliga biblioteket som Senior Data Scientist på KB-labb.

KB-labb skulle kunna ses som en svensk språkmodellsfabrik då Kungliga biblioteket har laglig tillgång till den största samlingen text- och ljuddata i Sverige. Hon berättade bland annat om KB-labbs språkmodeller och tal-till-textmodeller. Inom det svenska AI-ekosystemet är KB-labb mest känt för sina samlingsbaserade språkmodeller som används brett av AI-utvecklare. Modellerna har i dagsläget laddats ned över tre miljoner gånger och går att hitta på huggingface för de som vill.

”Generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar.”

Agnes Stenbom från Schibsted (Nordens största mediegrupp) berättade hur Schibsted använder AI i sin verksamhet. Agnes är chef för innovations- och inkluderingslabbet IN/LAB på Schibsted och industridoktorand inom AI och journalistik vid KTH. Schibsted använder AI-teknik för ett ökande antal produkter och tjänster men användandet är knutet till policyer för att säkerställa ett ansvarsfullt användande av AI. Agnes menar att generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar. Hon ser AI-teknik som en möjlighet snarare än som ett hot när den får samverka med mänsklig kompetens.

Agnes Stenbom från Schibsted.

Dagen avslutades med en paneldiskussion om hanteringen av data för språken i Sverige. Hur går det? Vilka utmaningar finns? Arbetet med att få fram träningsdata från en svensk kontext för att skapa bra svenska språkmodeller och andra språkresurser stöter ofta på hinder. Både Magnus och Leonora menade att det främst är lagstiftningen som står i vägen. Även om data för exempelvis minoritetsspråken finns, kan inte denna data doneras hur som helst legalt sett. Leonora lyfte även fram Kungliga biblioteket och reglerna kring deras datainsamling. Dessa regler innebär att om en fysisk version av en text finns, ska denna skickas in i stället för den digitala versionen. Det innebär ett stort slöseri med tid, resurser och pengar.

Magnus Sahlgren (till vänster) från AI Sweden, Anne-Marie Colliander Lind (i mitten) från Språkföretagen och Leonora Vesterbacka (till höger) från KB-labb.

Anne-Marie belyste språkföretagens perspektiv där bred expertis beträffande bland annat kommunikation och medielokalisering finns, men vi äger inte den data vi processar. Det innebär att våra datatillgångar inte kan delas vidare på grund av sekretess. Att skicka upp en opublicerad årsrapport eller ett pressmeddelande om Apples kommande release av en ny iPhone (det finns andra varumärken) i en språkmodell som inte kan garantera säkerheten för materialet skulle inte vara populärt. Här kom en idé upp under en av fikapauserna om att det skulle finnas teknik för att datumstämpla data – den kan vara låst under en viss tidsperiod men sedan är det fritt fram att använda den som träningsdata.

”Det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata.”

Sammanfattningsvis kan även samarbetet mellan olika aktörer lyftas fram som en utmaning i dagsläget. Insatser för bättre samverkan mellan myndigheter, offentliga verksamheter, den privata sektorn och små och stora företag behöver göras. Intresset finns bland eldsjälar i systemen, men det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata. En workshop om språkteknologi för ett flerspråkigt Europa kan ju vara en bra början och ett steg i rätt riktning.

Konferenstolkarna Georgina Marko (till vänster) och Emma Lindahl (till höger) arbetade under delar av dagen och gjorde ett utmärkt jobb. De kände inte till SFÖ-SAT, men det gör de nu.

SENASTE INSLAG +