Dansk taleteknologi

I løbet af 2,5 år har vi rejst rundt i Danmark og indsamlet stemmer og dialekter fra mere end 1.000 personer. Det har resulteret i et taledatasæt på op til 750 timers dansk tale. Heraf udgør 160 timer transskriberede samtaler, som nu er frit tilgængelige for alle.

Formålet har været og er fortsat at understøtte danske myndigheder og virksomheder i udviklingen af endnu bedre taleteknologi på dansk.

Taleteknologi skal nå ud til flere

I 2023 bevilligede Innovationsfonden 14 mio. kroner til et projekt med det formål at bringe dansk taleteknologi op på internationalt niveau. Som en del af dette projekt er taledatasættet CoRal (Danish Conversational and Read-aloud Speech Dataset) blevet udviklet.

Datasættet indeholder mere end 700 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen  fordelt på køn, alder, danske dialekter og udenlandske accenter. Samtidig har vi udviklet talegenkendelsesmodeller, der kan genkende dansk tale og oplæse dansk tekst.

Alle data og modeller er løbende blevet testet og offentliggjort, så udviklere, virksomheder og offentlige institutioner frit kan drage nytte af dem. Projektet blev afsluttet i 2026, men CoRals ressourcer er fortsat tilgængelige. Vi står desuden klar til at hjælpe med test, demonstrationer og udvikling af taleteknologiske løsninger på dansk.

Datasæt

100+ timers dansk tale
– frit tilgængeligt

Modeller

Åbne danske ASR- og TTS-modeller
trænet på dansk taledata

Forskning

Videnskabelige resultater
og forskningsartikler

Hvad bruges taleteknologi til?

Taleteknologi bruges til at forstå og gengive talt sprog og anvendes bl.a. til at hjælpe og aflaste i flg. situationer:

  • Stemmestyrede hjælpemidler til f.eks. ældre, borgere med synshandicap eller andre særlige behov

  • Diktat af sundhedsjournaler og automatisk dokumentation af samtaler med borgere eller kunder

  • Voice- og chatbots til f.eks. it-support, såsom nulstilling af adgangskoder eller hjælp til navigation på hjemmesider

  • Forbedret maskinoversættelse mellem dansk og andre sprog

  • Bedre digital oplæsning, f.eks. i GPS-systemer eller i offentlig transport

  • Beslutningsstøtte til medarbejdere gennem relevant viden, f.eks. i form af rådgivningsassistenter i kundeservice

Bliv en del af TaleTek

TaleTek er et netværk for alle, der arbejder med eller interesserer sig for taleteknologi i en dansk kontekst. Her deler vi viden, erfaringer og resultater fra forskning og praksis – og sætter fokus på aktuelle udfordringer som data, sprogvariation, bias og anvendelse i konkrete løsninger.

Netværket giver adgang til faglige arrangementer, ny indsigt i projekter som CoRal og RØST samt mulighed for at møde aktører fra både forskning, industri og offentlige organisationer.

Virksomhedsafdækning

For at forstå, hvordan taleteknologi anvendes i praksis i Danmark, har vi gennemført tre virksomhedsafdækninger.

De viser bl.a. udfordringer med bias, datamangel og sproglig variation – samt hvordan løsninger som CoRal og RØST bruges i praksis. Rapporten samler indsigter om anvendelse, brancher og de tekniske og organisatoriske barrierer.

Kontakt

Hvis du vil  vide mere om projektet, så kontakt

Torben Blach
Project Manager
Alexandra Instituttet

Tlf. 91 55 87 99
torben.blach@alexandra.dk
.

Torben Blach

Fakta om Coral

Officiel titel
Danish Conversational and Read-aloud Speech Dataset (CoRal)

Varighed
2 år og 10 måneder

Projektdeltagere
Over 1.000 personer i alderen 11–97 år

Indsamlet taledata
1.000 timers tale i alt – heraf 330 timers samtaler

Modeltræning
RØST-modeller til både talegenkendelse og talesyntese

Innovationsfondens investering
14.217.380 kr.

Samlet budget
22.172.400 kr.

Formular indsendt!