NLP og dansk sprogteknologi

Er vi klar til konsekvenserne, hvis det danske sprog lider en ’digital død’?

Anders Jess Pedersen

Anders Jess Pedersen

AI Specialist

Forleden formåede min fætters børn – som endnu ikke kan stave – at downloade Minecraft til deres fars telefon, udelukkende gennem behagelig samtale med Siri. For dem er den stemmestyrede digitale assistent lige så naturlig at bruge, som en google-søgning er blevet for os andre.

Det er blot et ud af mange tegn på, hvor vi er på vej hen. Udviklingen inden for sprogteknologi (Natural Language Processing) går stærkt, og i fremtiden vil vores kommunikation med computere og behandlingen af vores sprogdata ændre måden vi interagerer på.  

Jeg vil som udgangspunkt ikke sætte et skræmmebillede op, for der er så mange gode ting at hente i den udvikling. For at tage ét eksempel, så kan vi se på den danske virksomhed Corti, der har udviklet et program, der kan hjælpe under samtaler med sundhedsvæsnet. Når computeren er opdateret på al den nyeste viden og forskning, som ét menneske umuligt kan have et overblik over, og den samtidig kan holde det op imod med en betydelig samling af patienthistorik , så kan fejldiagnosticeringer sænkes markant.  

Derfor har vi en udfordring

Problemet er bare, at alt det primært foregår på engelsk. Tech-udviklingen er nogle gange drevet mere af penge end af etik, og derfor er det ikke så mærkeligt, at det er der, vi er. Engelsksprogede værktøjer rammer unægtelig en større målgruppe end værktøjer på dansk, og amerikanske tech-giganter har, skåret over en kam, en mere afslappet tilgang til etik end den gængse danske virksomhed.

Det er eksempelvis blevet afsløret, at Apple har lyttet med og transskriberet samtaler, som folk har haft i nærheden af deres mobil,
også mens Siri var slået fra. Det har givet Apple værdifulde data til udviklingen af deres sprogmodeller, men for hvilken pris i forhold til vores privatliv?
 

Så vi har altså en udfordring. Når en service bliver tilpas værdifuld, som når vores sundhedssystem kan garantere en væsentligt forbedret model til diagnosticering, så bliver det uhyre vanskeligt at vælge det fra. Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?  

Men hvis systemet kun fungerer på engelsk, skal din bedstemor så til at tale engelsk, når hun ringer til sin læge?

I gang med løsningen

Jeg er, sammen med mine kolleger, ved at løse udfordringen, men det er i sandhed en udfordring, når man vil gå ansvarligt til værks. Skal modeller, som den nævnt ovenfor, virke på dansk, så skal den ikke bare virke på rigsdansk, den skal også virke på sønderjysk og bornholmsk og københavnsk og fynsk og på den lokale dialekt på Mandø, hvor der bor lige på den gode side af 30 mennesker. Alt i alt har vi 33 dialekter i Danmark, hvilket ikke umiddelbart synes af meget sammenlignet med eksempelvis Indien, hvor de har langt over 100 forskellige sprog. Men relativt set er der langt flere mennesker, der taler de respektive 100 sprog end der er mennesker der taler de 33 forskellige sprog i Danmark, og derfor har de et større datagrundlag at indsamle på i Indien.  

Et fælles ansvar

Derudover er det ikke kun dialekter, vi skal være sikre på, er repræsenterede. Børn og voksne, kvinder og mænd, sorte og hvide – vi skal være sikre på, at alle er repræsenteret i dataene, hvis vi vil udvikle modeller på ansvarlig vis. Vi er i gang med at indsamle data, men det kommer til at kræve nogle runder, hvor vi kvalitetssikrer vores modeller, ved at blive ved med at teste den på forskellige befolkningsgrupper, indtil den virker for alle.  

Det er et langsommeligt men vigtigt arbejde, hvis vi stadig skal være et digitalt foregangsland i fremtiden, og hvis vi stadig skal tale dansk. Det håber vi, at flere i Danmark får øjnene op for, både på Christiansborg, i det offentlige og i landets mange virksomheder, som også kan drage nytte af teknologierne.  

bliv klogere på tech

Relateret viden

AR-teknologi træner mejerister fra hele Norden i digital beslutningsstøtte

Alexandra Instituttet har i samarbejde med FORCE Technology og Kold College i Odense bygget en digital tvilling af et pasteuriseringsanlæg, som står for varmebehandling i et mejeri. Det gør op med den traditionelle måde at interagere med produktionen. I stedet for at du styrer maskinen via en skærm med knapper, så kan du gå rundt i produktionen i augmented reality og tage status på maskinernes tilstand.

Kan man lære at estimere et objekts orientering uden dataannotering?

For at estimere et givent objekts orientering i forhold til et kamera skal man først og fremmest kende, og genkende, objektets form og størrelse. Neurale netværk klarer disse opgaver godt, da de med nok data kan lære abstrakte koncepter. Dog er dataannotering, specielt til at estimere orientering og position, en lang, tidskrævende proces. Derfor har vi udviklet en motor til at generere syntetisk data til netop denne slags opgaver. Resultatet kan ses nedenfor.

Bliv klar over, hvor sikre – eller usikre – I er 

Når jeg taler med folk i branchen, så hører jeg tit, at ’sikkerhed skal være en konkurrenceparameter’. Jeg ville ønske, det allerede var tilfældet, for det ville betyde, at virksomheder handlede med rettidig omhu – dels for at stå stærkt, dels fordi det så ville betyde forskellen på at blive valgt til eller fra af kunderne.

Du kan altid tage kontakt

I tvivl om hvordan du kommer videre, og hvem du skal kontakte? Skriv til os her. Vi vender tilbage inden for 24 timer.

Formular indsendt!

Formularen er indsendt!