I løbet af 2,5 år har vi rejst rundt i Danmark og indsamlet stemmer og dialekter fra mere end 1.000 personer. Det har resulteret i et taledatasæt på op til 750 timers dansk tale. Heraf udgør 160 timer transskriberede samtaler, som nu er frit tilgængelige for alle.
Formålet har været og er fortsat at understøtte danske myndigheder og virksomheder i udviklingen af endnu bedre taleteknologi på dansk.
I 2023 bevilligede Innovationsfonden 14 mio. kroner til et projekt med det formål at bringe dansk taleteknologi op på internationalt niveau. Som en del af dette projekt er taledatasættet CoRal (Danish Conversational and Read-aloud Speech Dataset) blevet udviklet.
Datasættet indeholder mere end 700 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen fordelt på køn, alder, danske dialekter og udenlandske accenter. Samtidig har vi udviklet talegenkendelsesmodeller, der kan genkende dansk tale og oplæse dansk tekst.
Alle data og modeller er løbende blevet testet og offentliggjort, så udviklere, virksomheder og offentlige institutioner frit kan drage nytte af dem. Projektet blev afsluttet i 2026, men CoRals ressourcer er fortsat tilgængelige. Vi står desuden klar til at hjælpe med test, demonstrationer og udvikling af taleteknologiske løsninger på dansk.
Taleteknologi bruges til at forstå og gengive talt sprog og anvendes bl.a. til at hjælpe og aflaste i flg. situationer:
Stemmestyrede hjælpemidler til f.eks. ældre, borgere med synshandicap eller andre særlige behov
Diktat af sundhedsjournaler og automatisk dokumentation af samtaler med borgere eller kunder
Voice- og chatbots til f.eks. it-support, såsom nulstilling af adgangskoder eller hjælp til navigation på hjemmesider
Forbedret maskinoversættelse mellem dansk og andre sprog
Bedre digital oplæsning, f.eks. i GPS-systemer eller i offentlig transport
Beslutningsstøtte til medarbejdere gennem relevant viden, f.eks. i form af rådgivningsassistenter i kundeservice
TaleTek er et netværk for alle, der arbejder med eller interesserer sig for taleteknologi i en dansk kontekst. Her deler vi viden, erfaringer og resultater fra forskning og praksis – og sætter fokus på aktuelle udfordringer som data, sprogvariation, bias og anvendelse i konkrete løsninger.
Netværket giver adgang til faglige arrangementer, ny indsigt i projekter som CoRal og RØST samt mulighed for at møde aktører fra både forskning, industri og offentlige organisationer.
For at forstå, hvordan taleteknologi anvendes i praksis i Danmark, har vi gennemført tre virksomhedsafdækninger.
De viser bl.a. udfordringer med bias, datamangel og sproglig variation – samt hvordan løsninger som CoRal og RØST bruges i praksis. Rapporten samler indsigter om anvendelse, brancher og de tekniske og organisatoriske barrierer.
Hvis du vil vide mere om projektet, så kontakt
Torben Blach
Project Manager
Alexandra Instituttet
Tlf. 91 55 87 99
torben.blach@alexandra.dk.
Officiel titel
Danish Conversational and Read-aloud Speech Dataset (CoRal)
Varighed
2 år og 10 måneder
Projektdeltagere
Over 1.000 personer i alderen 11–97 år
Indsamlet taledata
1.000 timers tale i alt – heraf 330 timers samtaler
Modeltræning
RØST-modeller til både talegenkendelse og talesyntese
Innovationsfondens investering
14.217.380 kr.
Samlet budget
22.172.400 kr.