Søg
Close this search box.

Kunstig intelligens

375 timers indtaling af danske dialekter er netop frigivet til gratis brug

Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Det er en teknologi, som er i global vækst, og som kommer til at forbedre stemmestyrede hjælpemidler og effektivisere rutineopgaver såsom notatskrivning. 

For at taleteknologien fungerer optimalt, kræver det store datasæt, og her har dansk, som er et lille sprog, haltet bagud. For at forbedre det har vi i samarbejde med en række partnere indsamlet omkring 375 timers dansk tale, hvilket svarer til lidt over en tredjedel af de 1.000 timers dansk tale, som skal udgives i alt, og som vil gøre det til største danske tale-datasæt, der er udgivet til dato. Og det giver samtidig en bred repræsentation på tværs af køn, alder samt de dialekter og accenter, som vi har i Danmark.

Hele befolkningen repræsenteret
Man vil kunne bruge datasættet til mange forskellige ting, herunder transskribering, forklarer vores Senior AI Specialist Dan Saattrup Nielsen. Derudover har der været meget interesse fra høreapparatsproducenter for at kunne bruge det i deres systemer. 

“Et af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af det ‘forkerte’ køn, så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du som virksomhed eller myndighed kan indfri det potentiale, der er med fx automatisk journalisering.”

Den ulighed har man prøvet at gøre op med og er gået efter at få et så bredt udsnit af befolkningen med i datasættet, forklarer Dan Saattrup Nielsen:

“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har. Det betyder, at alle de teknologier, som begynder at komme frem, vil kunne fungere langt bedre. Det kan være voicebots i kundeservices eller behandling af lyddata, som bliver brugt i det offentlige til automatisk at skrive journalnotater. Det kan også være virksomheder, som bruger det til automatiske mødereferater.”

Muligt at teste eksisterende systemer
Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.

“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer Dan.

Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.

Fakta
CoRal, der står for Danish Conversational and read-aloud speech dataset, er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale. For at gøre modellen så repræsentativ og robust som mulig, trænes der på tale fra både mænd og kvinder, forskellige aldersgrupper og folk med forskellige dialekter samt udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk højt.

Dansk taleteknologi kan anvendes til en lang række områder: 

  • Det gælder stemmestyrede hjælpemidler til fx ældre og borgere med synshandicap samt diktat af sundhedsjournaler eller automatisk dokumentation af samtaler.
  • Det kan give en bedre maskinoversættelse mellem dansk og andre sprog samt bedre digital oplæsning i fx GPS eller offentlig transport.
  • Det kan også bruges i voice- og chatbots til bl.a. it-hjælp som nulstilling af passwords, navigation på hjemmesider.

Projektet er et samarbejde mellem Datalogisk Institut på Københavns Universitet, Alvenir, Corti, Digitaliseringsstyrelsen og os. Det har et samlet budget på 22 mio. kr., hvoraf de 14 mio. kr. kommer fra Innovationsfonden.

Alle data og modeller i projektet er frit tilgængeligt for alle. Man kan hente datasættet her

Del dette:

Formular indsendt!