MemoQ i norr
MemoQ gör nedslag i Stockholm
4 sep, 2024Vad ska de stora språkmodellerna tränas med för att bli duktiga på alla sorters svenska? Lagstiftning sätter käppar i hjulet för insamlandet av träningsdata.
Den 16 maj 2024 anordnade Institutet för språk och folkminnen (Isof) en workshop om språkteknologi på Europahuset i Stockholm där Europaparlamentets informationskontor och EU-kommissionens representation i Sverige finns. Språkbanken Sam och AI Sweden berättade tillsammans med sakkunniga från EU-kommissionen om det arbete som pågår inom projektet European Language Data Space (LDS).
”Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI.”
Målgruppen för workshoppen var företag och organisationer som hanterar språkliga data och som vill använda AI för att gynna innovativ verksamhetsutveckling. European Language Data Space (LDS) är ett ramverk vars syfte är datadelning och skapandet av språkteknologi inom EU för att skapa nya möjligheter till kommunikation över språkgränserna. Bevarandet av ett flerspråkigt Europa och mångfalden inom EU kräver både språkteknologi och AI. Det påståendet gick som en röd tråd genom de olika programpunkterna. Ett annat återkommande tema för dagen var vikten av samarbete kring språkdata mellan olika aktörer. Och att lagändringar krävs. Lagstiftningen ligger långt efter och behöver anpassas efter en ny verklighet beträffande datatillgångar.
Efter Johan Wullts välkomstord (Europeiska kommissionen i Sverige) tog Phillippe Gelin och Georg Rehm över. Phillippe är sektorchef för flerspråkighet vid DG/CONNECT på Europeiska kommissionen och Georg är forskningsledare på DFKI och koordinator för LDS. De berättade mer utförligt om LDS och beskrev ett system där deltagare ska kunna dela och samarbeta kring datatillgångar på ett sätt som stämmer överens med relevanta lagar och förordningar. En infrastruktur för att skapa en pålitlig marknadsplats för datatillgångar där aktörer från både den privata och offentliga sektorn kan utbyta, handla med och samarbeta kring data. Än så länge finns LDS bara på papperet men det finns ett stort behov av att ta tillvara på och dra nytta av våra europeiska språkdata. Enligt Phillippe och Georg är utvecklingen av LDS även en värdefull motvikt till techjättar som OpenAI, Google och Meta och där LDS kan innebära en möjlighet att ta sig in på marknader där språkdata ännu inte har utvunnits.
Rickard Domeij berättade om AI och språkteknologi ur ett språkpolitiskt perspektiv. Rickard är doktor i datorlingvistik vid Stockholms universitet och ansvarar för språkteknologiarbetet på Språkrådet vid Institutet för språk och folkminnen (Isof). Rickard lyfte fram Språkrådets uppdrag att främja utvecklingen av språkteknologin för språken i Sverige, inklusive de nationella minoritetsspråken. Rickard betonade vikten av att språkteknologin utvecklas även för de mindre språken, annars riskerar dessa att stängas ute från det digitala samhället. Språkbanken SAM gör Isofs arkivmaterial (text- och talmaterial) tillgängligt för både forskare och allmänhet. Isof är en språkpolitisk myndighet och Rickard menar att LDS kan bidra till en infrastruktur för de mindre språkens datatillgångar där andra språkresurser än stora språkmodeller ibland kan vara mer aktuellt.
”Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket”
Magnus Sahlgren och Danila Petrelli från AI Sweden berättade om GPT för svenska och projektet TrustLLM. Magnus är doktor i datorlingvistik och forskningsledare för språkteknologin och Danila är Data Manager för språkprojekten. AI Sweden är ett svenskt nationellt center för tillämpad artificiell intelligens vars syfte är att påskynda användningen av AI till förmån för alla i samhället. Storskaliga generativa språkmodeller för det svenska språket behövs för att skapa GPT:er som bygger på data som är representativa för det svenska språket (GPT står för Generative Pre-Trained Transformer och här kan du läsa mer om AI i olika artiklar på temat från SFÖ-SAT). GPT-SW3 är ett exempel på en av de första stora generativa språkmodellerna för svenska och bygger på samma teknik som OpenAI:s Chat GTP-4. Till skillnad från OpenAI:s modeller bygger AI Swedens modeller på öppen licens. För tillfället utvecklar AI Sweden nästa generations språkmodell för svenska. Den kommer att vara multimodal vilket innebär att den utöver text även förstår tal och bilder. Det europeiska samarbetsprojektet TrustLLM syftar till att utveckla språkmodeller för de germanska språken och en språkmodell som bygger på transparens och tillit för utvecklingen av en hållbar språkmodell.
”Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI.”
Ett annat intressant inslag var Anne-Marie Colliander Lind från branschorganisationen Språkföretagen. Hon belyste hur olika typer av språkteknologi har varit en självklarhet för aktörer inom språkindustrin ända sedan 1990-talet. I mer än 30 år har språkbranschen legat i framkant när det gäller språkteknologi för att säkerställa bästa nyttan av tillgängliga lösningar, kvalitet, säkerhet, konsekvent terminologi och tidseffektiva leveranser. AI-tekniken är bara ytterligare ett redskap vi måste lära oss att bemästra och att använda den på rätt sätt. En större utmaning, menar Anne-Marie, är kundernas högt ställda förväntningar på AI. Hon berättade om språkföretag som blivit av med stora kunder i samband med AI-boomen men också att ”baksmällan kom snabbt” som hon uttryckte det. Kunderna kom tillbaka igen när de insåg att de professionella språktjänster de tidigare köpt in inte gick att ersätta med AI. En annan programpunkt var Kungliga biblioteket som inte bara är ett bibliotek utan även en myndighet som har till uppdrag att samla in och bevara Sveriges kulturarv. Leonora Vesterbacka har en doktorsexamen i fysik och jobbar på Kungliga biblioteket som Senior Data Scientist på KB-labb.
KB-labb skulle kunna ses som en svensk språkmodellsfabrik då Kungliga biblioteket har laglig tillgång till den största samlingen text- och ljuddata i Sverige. Hon berättade bland annat om KB-labbs språkmodeller och tal-till-textmodeller. Inom det svenska AI-ekosystemet är KB-labb mest känt för sina samlingsbaserade språkmodeller som används brett av AI-utvecklare. Modellerna har i dagsläget laddats ned över tre miljoner gånger och går att hitta på huggingface för de som vill.
”Generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar.”
Agnes Stenbom från Schibsted (Nordens största mediegrupp) berättade hur Schibsted använder AI i sin verksamhet. Agnes är chef för innovations- och inkluderingslabbet IN/LAB på Schibsted och industridoktorand inom AI och journalistik vid KTH. Schibsted använder AI-teknik för ett ökande antal produkter och tjänster men användandet är knutet till policyer för att säkerställa ett ansvarsfullt användande av AI. Agnes menar att generativ AI är en intressant teknik som inte ska användas istället för mänskliga skribenter, journalister och reportrar. Hon ser AI-teknik som en möjlighet snarare än som ett hot när den får samverka med mänsklig kompetens.
Dagen avslutades med en paneldiskussion om hanteringen av data för språken i Sverige. Hur går det? Vilka utmaningar finns? Arbetet med att få fram träningsdata från en svensk kontext för att skapa bra svenska språkmodeller och andra språkresurser stöter ofta på hinder. Både Magnus och Leonora menade att det främst är lagstiftningen som står i vägen. Även om data för exempelvis minoritetsspråken finns, kan inte denna data doneras hur som helst legalt sett. Leonora lyfte även fram Kungliga biblioteket och reglerna kring deras datainsamling. Dessa regler innebär att om en fysisk version av en text finns, ska denna skickas in i stället för den digitala versionen. Det innebär ett stort slöseri med tid, resurser och pengar.
Anne-Marie belyste språkföretagens perspektiv där bred expertis beträffande bland annat kommunikation och medielokalisering finns, men vi äger inte den data vi processar. Det innebär att våra datatillgångar inte kan delas vidare på grund av sekretess. Att skicka upp en opublicerad årsrapport eller ett pressmeddelande om Apples kommande release av en ny iPhone (det finns andra varumärken) i en språkmodell som inte kan garantera säkerheten för materialet skulle inte vara populärt. Här kom en idé upp under en av fikapauserna om att det skulle finnas teknik för att datumstämpla data – den kan vara låst under en viss tidsperiod men sedan är det fritt fram att använda den som träningsdata.
”Det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata.”
Sammanfattningsvis kan även samarbetet mellan olika aktörer lyftas fram som en utmaning i dagsläget. Insatser för bättre samverkan mellan myndigheter, offentliga verksamheter, den privata sektorn och små och stora företag behöver göras. Intresset finns bland eldsjälar i systemen, men det behövs också utbildning för att få fram den kompetens som krävs för att kunna samarbeta kring språkdata. En workshop om språkteknologi för ett flerspråkigt Europa kan ju vara en bra början och ett steg i rätt riktning.
Årets upplaga av Nordic Translation & Interpretation Forum (NTIF) i Malmö
8 dec, 2022I många språkkombinationer saknas bra lexikon. Vilka konsekvenser får detta för översättaren och målt...
25 nov, 2022Från jurist till översättare – Noggrannhet och språkkänsla gemensamt krav för båda yrkena
1 sep, 2023Läs våra berättelser om saker värda att minnas (om du var där) eller få reda på (om du missade evente...
30 nov, 2022Julpantomim, julmust - och nya krafter i SFÖ
22 dec, 2022Välbesökt minikonferens i SFÖ-SAT:s regi
13 dec, 2023Om kvalitetssäkrande åtgärder inbyggda i undertextningsprocesserna.
17 feb, 2022Danskt-norskt-finskt-svenskt-isländskt-grönländskt seminarium
18 jan, 2024Träff för översättare och tolkar i Umeå gav mersmak
2 apr, 2024Inför SFÖ-SAT-konferensen i Uppsala den 19–20 april ställer eV några frågor till de medlemmar som ska...
14 feb, 2024Funderingar kring inre dialog och källspråkets specifika vikt.
1 feb, 2024Nybildat nätverk i Norden och Baltikum upptäcker gemensamma stötestenar
19 jul, 2023Hur såg Hieronymus på översättande? Och var det egentligen ett äpple som Eva åt?
22 okt, 2023Välkommen till UX-skribentens hemliga värld
19 sep, 2023Många äro de översättartyper som möter oss i språkets lustgård och djungel
30 sep, 2024Offentlig sektor ska kräva professionella tolkar
30 sep, 2024Hantera hivspel, vakare, draggar och långrevar med organisk intelligens
23 sep, 2024Praktikplats i Bryssel
10 sep, 2024Kan AI-verktyg användas för upphovsrättstvätt?
6 sep, 2024SFI för alla
30 aug, 2024E-versättarens reporter rätar ut några frågetecken – och nya uppstår
22 aug, 2024Om man är duktig på två språk – kan man då vara både tolk och översättare?
4 aug, 2024Direktkunder inom offentlig sektor – en möjlighet även för dig som egenföretagande översättare
9 jun, 2024Gunnar Carlsson är död. Men han lämnar ett bestående arv i översättarvärlden!
7 jun, 2024En av översättarens och tolkens hjälpredor i samhälls- och EU-terminologi
4 jun, 2024En facköversättare i samtal med en bibelöversättare
22 maj, 2024Ett kompletterande språkstöd för bättre kommunikation i vården
19 maj, 2024Nya vägar framåt i kraftigt förändrad översättningsbransch
17 maj, 2024Nereida vill framhålla tolkars kunskaper och kapacitet
1 maj, 2024