NLP og dansk sprogteknologi

Er vi klar til konsekvenserne, hvis det danske sprog lider en ’digital død’?

Anders Jess Pedersen

Anders Jess Pedersen

AI Specialist

Forleden formåede min fætters børn – som endnu ikke kan stave – at downloade Minecraft til deres fars telefon, udelukkende gennem behagelig samtale med Siri. For dem er den stemmestyrede digitale assistent lige så naturlig at bruge, som en google-søgning er blevet for os andre.

Det er blot et ud af mange tegn på, hvor vi er på vej hen. Udviklingen inden for sprogteknologi (Natural Language Processing) går stærkt, og i fremtiden vil vores kommunikation med computere og behandlingen af vores sprogdata ændre måden vi interagerer på.  

Jeg vil som udgangspunkt ikke sætte et skræmmebillede op, for der er så mange gode ting at hente i den udvikling. For at tage ét eksempel, så kan vi se på den danske virksomhed Corti, der har udviklet et program, der kan hjælpe under samtaler med sundhedsvæsnet. Når computeren er opdateret på al den nyeste viden og forskning, som ét menneske umuligt kan have et overblik over, og den samtidig kan holde det op imod med en betydelig samling af patienthistorik , så kan fejldiagnosticeringer sænkes markant.  

Derfor har vi en udfordring

Problemet er bare, at alt det primært foregår på engelsk. Tech-udviklingen er nogle gange drevet mere af penge end af etik, og derfor er det ikke så mærkeligt, at det er der, vi er. Engelsksprogede værktøjer rammer unægtelig en større målgruppe end værktøjer på dansk, og amerikanske tech-giganter har, skåret over en kam, en mere afslappet tilgang til etik end den gængse danske virksomhed.

Det er eksempelvis blevet afsløret, at Apple har lyttet med og transskriberet samtaler, som folk har haft i nærheden af deres mobil,
også mens Siri var slået fra. Det har givet Apple værdifulde data til udviklingen af deres sprogmodeller, men for hvilken pris i forhold til vores privatliv?
 

Så vi har altså en udfordring. Når en service bliver tilpas værdifuld, som når vores sundhedssystem kan garantere en væsentligt forbedret model til diagnosticering, så bliver det uhyre vanskeligt at vælge det fra. Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?  

Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?

I gang med løsningen

Jeg er, sammen med mine kolleger, ved at løse udfordringen, men det er i sandhed en udfordring, når man vil gå ansvarligt til værks. Skal modeller, som den nævnt ovenfor, virke på dansk, så skal den ikke bare virke på rigsdansk, den skal også virke på sønderjysk og bornholmsk og københavnsk og fynsk og på den lokale dialekt på Mandø, hvor der bor lige på den gode side af 30 mennesker. Alt i alt har vi 33 dialekter i Danmark, hvilket ikke umiddelbart synes af meget sammenlignet med eksempelvis Indien, hvor de har langt over 100 forskellige sprog. Men relativt set er der langt flere mennesker, der taler de respektive 100 sprog end der er mennesker der taler de 33 forskellige sprog i Danmark, og derfor har de et større datagrundlag at indsamle på i Indien.  

Et fælles ansvar

Derudover er det ikke kun dialekter, vi skal være sikre på, er repræsenterede. Børn og voksne, kvinder og mænd, sorte og hvide – vi skal være sikre på, at alle er repræsenteret i dataene, hvis vi vil udvikle modeller på ansvarlig vis. Vi er i gang med at indsamle data, men det kommer til at kræve nogle runder, hvor vi kvalitetssikrer vores modeller, ved at blive ved med at teste den på forskellige befolkningsgrupper, indtil den virker for alle.  

Det er et langsommeligt men vigtigt arbejde, hvis vi stadig skal være et digitalt foregangsland i fremtiden, og hvis vi stadig skal tale dansk. Det håber vi, at flere i Danmark får øjnene op for, både på Christiansborg, i det offentlige og i landets mange virksomheder, som også kan drage nytte af teknologierne.  

bliv klogere på tech

Relateret viden

App skal hjælpe patienter efter knæoperation

Mange tusind patienter om året får knæoperationer, benforlængelser og kunstigt knæ pga. slidgigt, og bagefter går de til kontrol. Det er tidskrævende for både patienter og sundhedspersonale og kan være overflødigt for patienter med et normalt forløb.

Nej, I skal ikke ud på en spændende rejse; I skal omstille jer igen og igen og igen

I år kårede DJØFerne ‘rejse’ til årets mest forhadte ord – vel at mærke i arbejdssammenhæng, som når organisationen står foran en forandringsproces, og ledelsen kalder det for ‘en spændende rejse’. Det er forståeligt, at metaforen er forhadt, for ikke alene er det irriterende at bruge feriemetaforer om arbejdskrævende processer; det er også misvisende.

Digitainability: Digitalisering og bæredygtighed hænger sammen

Digitalisering og bæredygtighed er tidens to største megatrends, der desværre tit bliver håndteret hver for sig, så de, der har ansvar for hhv. digitalisering og bæredygtighed sidder i forskellige afdelinger eller forvaltningsenheder. Det er ærgerligt, for digitalisering skaber mange muligheder for at fremme bæredygtighed.

Du kan altid tage kontakt

I tvivl om hvordan du kommer videre, og hvem du skal kontakte? Skriv til os her. Vi vender tilbage inden for 24 timer.

Formular indsendt!

Formularen er indsendt!