NLP og dansk sprogteknologi

Er vi klar til konsekvenserne, hvis det danske sprog lider en ’digital død’?

Anders Jess Pedersen

Anders Jess Pedersen

AI Specialist

Forleden formåede min fætters børn – som endnu ikke kan stave – at downloade Minecraft til deres fars telefon, udelukkende gennem behagelig samtale med Siri. For dem er den stemmestyrede digitale assistent lige så naturlig at bruge, som en google-søgning er blevet for os andre.

Det er blot et ud af mange tegn på, hvor vi er på vej hen. Udviklingen inden for sprogteknologi (Natural Language Processing) går stærkt, og i fremtiden vil vores kommunikation med computere og behandlingen af vores sprogdata ændre måden vi interagerer på.  

Jeg vil som udgangspunkt ikke sætte et skræmmebillede op, for der er så mange gode ting at hente i den udvikling. For at tage ét eksempel, så kan vi se på den danske virksomhed Corti, der har udviklet et program, der kan hjælpe under samtaler med sundhedsvæsnet. Når computeren er opdateret på al den nyeste viden og forskning, som ét menneske umuligt kan have et overblik over, og den samtidig kan holde det op imod med en betydelig samling af patienthistorik , så kan fejldiagnosticeringer sænkes markant.  

Derfor har vi en udfordring

Problemet er bare, at alt det primært foregår på engelsk. Tech-udviklingen er nogle gange drevet mere af penge end af etik, og derfor er det ikke så mærkeligt, at det er der, vi er. Engelsksprogede værktøjer rammer unægtelig en større målgruppe end værktøjer på dansk, og amerikanske tech-giganter har, skåret over en kam, en mere afslappet tilgang til etik end den gængse danske virksomhed.

Det er eksempelvis blevet afsløret, at Apple har lyttet med og transskriberet samtaler, som folk har haft i nærheden af deres mobil,
også mens Siri var slået fra. Det har givet Apple værdifulde data til udviklingen af deres sprogmodeller, men for hvilken pris i forhold til vores privatliv?
 

Så vi har altså en udfordring. Når en service bliver tilpas værdifuld, som når vores sundhedssystem kan garantere en væsentligt forbedret model til diagnosticering, så bliver det uhyre vanskeligt at vælge det fra. Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?  

Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?

I gang med løsningen

Jeg er, sammen med mine kolleger, ved at løse udfordringen, men det er i sandhed en udfordring, når man vil gå ansvarligt til værks. Skal modeller, som den nævnt ovenfor, virke på dansk, så skal den ikke bare virke på rigsdansk, den skal også virke på sønderjysk og bornholmsk og københavnsk og fynsk og på den lokale dialekt på Mandø, hvor der bor lige på den gode side af 30 mennesker. Alt i alt har vi 33 dialekter i Danmark, hvilket ikke umiddelbart synes af meget sammenlignet med eksempelvis Indien, hvor de har langt over 100 forskellige sprog. Men relativt set er der langt flere mennesker, der taler de respektive 100 sprog end der er mennesker der taler de 33 forskellige sprog i Danmark, og derfor har de et større datagrundlag at indsamle på i Indien.  

Et fælles ansvar

Derudover er det ikke kun dialekter, vi skal være sikre på, er repræsenterede. Børn og voksne, kvinder og mænd, sorte og hvide – vi skal være sikre på, at alle er repræsenteret i dataene, hvis vi vil udvikle modeller på ansvarlig vis. Vi er i gang med at indsamle data, men det kommer til at kræve nogle runder, hvor vi kvalitetssikrer vores modeller, ved at blive ved med at teste den på forskellige befolkningsgrupper, indtil den virker for alle.  

Det er et langsommeligt men vigtigt arbejde, hvis vi stadig skal være et digitalt foregangsland i fremtiden, og hvis vi stadig skal tale dansk. Det håber vi, at flere i Danmark får øjnene op for, både på Christiansborg, i det offentlige og i landets mange virksomheder, som også kan drage nytte af teknologierne.  

bliv klogere på tech

Relateret viden

DETR: Objektgenkendelse med transformere

Facebook har for nyligt udviklet DETR, et objektgenkendelsesnetværk baseret på en deep learning-algoritme kendt som ‘transformer’. DETR, som står for DEtection TRansformer, er et skridt i den rigtige retning, idet det reducerer mængden af domænekendskab, udvikleren skal have. Det simplificerer resultaterne og beregningsprocessen, og præsenterer et stærkt resultat i både hastighed og præcision.

Bliv klar over, hvor sikre – eller usikre – I er 

Når jeg taler med folk i branchen, så hører jeg tit, at ’sikkerhed skal være en konkurrenceparameter’. Jeg ville ønske, det allerede var tilfældet, for det ville betyde, at virksomheder handlede med rettidig omhu – dels for at stå stærkt, dels fordi det så ville betyde forskellen på at blive valgt til eller fra af kunderne.

Tænk implementering ind fra start, så I ender med en løsning i brug!

Når medarbejdere eller ledere af en virksomhed står med et problem, tænker de oftere end tidligere over, om de kan løse udfordringen med digitalisering. Der er mindst to grunde til, at I skal digitalisere. Denne ene er, at I ønsker at gøre en eksisterende arbejdsgang mere effektiv. Den anden, at I gerne vil gøre noget, som I ikke har midlerne til at kunne i dag. 

Du kan altid tage kontakt

I tvivl om hvordan du kommer videre, og hvem du skal kontakte? Skriv til os her. Vi vender tilbage inden for 24 timer.

Formular indsendt!

Formularen er indsendt!