CAT

Drunkna i data

4 aug, 2018

Punkt 2 i Jost Zetzsches 289:e Tool Box Journal, publicerad 2018-07-16, har den intressanta rubriken ”Too Much Data?”. Vaddå – man kan väl aldrig få för många bra förslag från sina TM och termbaser?

/ Foto: iStock.

Jost var i många år anhängare av den princip som manga av oss tillämpar, som blev med CAT på 1990-talet: Lägg alla dina översatta segment i jättedatabasen Bigmama. Lägg alla dina mödosamt insamlade termer i jättetermbasen Bigpapa.

Men det funkar inte längre. Säger Jost i sitt senaste nyhetsbrev. Säger Kevin Lossner i sitt webinarium i majTranslation Tribulations (en synnerligen läs- och sevärd blogg för översättare med intresse för översättningsteknik). Sa Katalin Hollósi i sin Master Class om terminologihantering vid memoQ-fest i Budapest i maj.

Varför är alla så eniga i denna analys?

Därför att vi håller på att drunkna i språkdata. När CAT-verktyget landar på ett nytt segment och föreslår ett par tre tänkbara översättningar och lika många lösa termer är det hanterbart och definitivt till hjälp. När vi får tio gånger så många förslag är det mest störande, samtidigt som hela processen börjar lagga betänkligt. Orsakerna är främst två:

1. Som översättare har vi blivit allt effektivare i att bygga såväl termbaser som TM. Runt sekelskiftet byggde vi långsamt och mödosamt våra databaser baserat på eget arbete. Idag kan vi på ett par minuter ladda ner en tbx-fil med över 20 000 validerade Microsoft-termer, eller med linjeringsverktyg skapa en frasdatabas på närmare 2 500 segment av det omtalade GDPR-direktivet (se faktarutan på sid xx).

2. Moderna CAT-verktyg arbetar i ökande utsträckning på ”sub-segment level”, dvs de känner igen delar av segment och kan pussla ihop plausibla översättningar med delar av flera olika segment plus lösa termer från flera termbaser.

Dessa faktorer sammantagna gör mängden översättningsförslag till varje segment ohanterligt och den normalt effektiva CAT-tekniken blir i praktiken värdelös.

Vilken är lösningen?

Vi måste börja strukturera våra termbaser och TM på ett nytt och effektivare sätt. Baserat på hur kundkretsen ser ut måste vi sluta låta våra väldiga Bigmama och Bigpapa (min Bigmama innehåller väl över miljonen segment – de äldsta från sent 90-tal) svälla ytterligare. Istället ska vi bygga slimmade och ämnes-/kundspecifika databaser. Vad göra med de stora samlingsdatabaser vi redan har då? Förutsatt att vi har sparat alla termer och segment med angivelse av kund och/eller ämne går det (i värsta fall via Excel) att filtrera ut åtminstone de viktigaste kategorierna. Den återstående bottensatsen får väl stanna kvar som referensdatabas – om den inte stör för mycket.

Verktygen för kvalitetssäkring i moderna CAT-verktyg mer eller mindre förutsätter detta sätt att arbeta. I annat fall blir det så många falska varningar att kvalitetssäkringen inte fyller någon funktion.

Detta kräver samtidigt att vi skapar en logisk struktur för namngivning av databaser – annars kommer samlingen snabbt att bli ohanterlig.

Till verket värderade kollegor – less is more!

SAMMA FÖRFATTARE +