I løbet af 2,5 år har vi rejst rundt i Danmark og indsamlet stemmer og dialekter fra mere end 1.000 personer. Det har resulteret i et taledatasæt på op til 750 timers dansk tale. Heraf udgør 160 timer transskriberede samtaler, som nu er frit tilgængelige for alle.
Formålet har været – og er fortsat – at understøtte danske myndigheder og virksomheder i udviklingen af endnu bedre taleteknologi på dansk.
I 2023 bevilligede Innovationsfonden 14 mio. kroner til et projekt, der skal være med til at bringe dansk taleteknologi op på internationalt niveau. Siden da har vi udviklet taledatasættet CoRal, som står for Danish Conversational and Read-aloud Speech Dataset.
Datasættet indeholder mere end 700 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen – fordelt på køn, alder, danske dialekter og udenlandske accenter. Samtidig har vi udviklet sprogmodeller, der kan genkende dansk tale og oplæse dansk tekst.
Alle data og modeller er løbende blevet testet og offentliggjort, så udviklere, virksomheder og offentlige institutioner frit kan drage nytte af dem. Projektet blev afsluttet i 2026, men CoRals ressourcer vil fortsat være tilgængelige. Vi står desuden klar til at hjælpe med test, demonstrationer og udvikling af taleteknologiske løsninger på dansk.
Taleteknologi bruges til at forstå og gengive talt sprog og anvendes bl.a. til at hjælpe og aflaste i flg. situationer:
Stemmestyrede hjælpemidler til f.eks. ældre, borgere med synshandicap eller andre særlige behov
Diktat af sundhedsjournaler og automatisk dokumentation af samtaler med borgere eller kunder
Voice- og chatbots til f.eks. it-support, såsom nulstilling af adgangskoder eller hjælp til navigation på hjemmesider
Forbedret maskinoversættelse mellem dansk og andre sprog
Bedre digital oplæsning, f.eks. i GPS-systemer eller i offentlig transport
Beslutningsstøtte til medarbejdere gennem relevant viden, f.eks. i form af rådgivningsassistenter i kundeservice
Hvis du vil vide mere om projektet, så kontakt
Torben Blach
Project Manager
Alexandra Instituttet
Tlf. 91 55 87 99
torben.blach@alexandra.dk.
Officiel titel
Danish Conversational and Read-aloud Speech Dataset (CoRal)
Varighed
2 år og 10 måneder
Projektdeltagere
Over 1.000 personer i alderen 11–97 år
Indsamlet taledata
1.000 timers tale i alt – heraf 330 timers samtaler
Modeltræning
RØST-modeller til både talegenkendelse og talesyntese
Innovationsfondens investering
14.217.380 kr.
Samlet budget
22.172.400 kr.