CORAL
1000+ timers dansk tale fra dialekter og accenter – frit til forskning og udvikling
Taleteknologi udvikler sig hurtigt globalt, men udviklingen af dansk taleteknologi har længe været udfordret af, at dansk er et relativt lille sprogområde. Markedskræfterne alene har derfor ikke været nok til at drive udviklingen i samme tempo som for større sprog.
CoRal-projektet har haft som mål at styrke fundamentet for dansk taleteknologi ved at udvikle et omfattende og åbent taledatasæt med dansk tale af høj kvalitet.
Dansk betragtes som et lavressourcesprog, hvilket betyder, at der findes relativt få digitale sprogresurser til træning af kunstig intelligens og taleteknologi. Samtidig har tidligere datasæt kun dækket en begrænset del af befolkningen. CoRal-projektet har derfor haft fokus på at indsamle taledata, der i højere grad afspejler den sproglige variation i Danmark.
Parallelt med dataindsamlingen har projektet udviklet og trænet både ASR-modeller (Automatic Speech Recognition) og TTS-modeller (Text-to-Speech). Disse modeller har løbende været brugt til at vurdere behovet for yderligere data på tværs af dialekter, accenter, alder og køn.
For at sikre et datasæt, der afspejler det danske sprog i praksis, har projektet arbejdet ud fra fem centrale parametre:
Datasættet dækker ni dialektgrupper: bornholmsk, fynsk, københavnsk, nordjysk, sjællandsk, sydømål, sønderjysk, vestjysk og østjysk.
Personer, der er flyttet til Danmark efter deres 15. år, registreres som talere med accent og indgår i en separat gruppe.
I alt er 32 dialekter dokumenteret, hvoraf syv områder har været særligt prioriterede for at sikre en god geografisk og dialektal spredning.
Dataindsamlingen har fundet sted på mere end 70 lokationer i hele landet, hvor over 1.000 personer i alderen 11–97 år har deltaget.
Deltagerne er opdelt i tre aldersgrupper:
Den ældste gruppe har en overvægt af kvinder, hvilket faktisk styrker datasættet, da både kvinder og ældre personer ofte er underrepræsenteret i andre taledatasæt.
Optagelserne blev gennemført i lukkede eller relativt lydisolerede rum med samme tekniske opsætning for at sikre ensartet lydkvalitet. Rekrutteringen af deltagere skete blandt andet via:
Undervejs i projektet har danske virksomheder og organisationer også bidraget med input til datasættet. En vigtig efterspørgsel har været mere virkelighedsnær taledata, eksempelvis spontan tale, dårlig lydkvalitet, baggrundsstøj og rumklang.
Optagelserne bestod af to forskellige sessionstyper:
1. Højtlæsning
Deltagerne læste en række foruddefinerede sætninger højt. Denne metode sikrede dækning af mange forskellige ord, udtryk og syntaktiske konstruktioner og bidrog til datasættets volumen.
2. Samtale
To deltagere førte en mere fri samtale. Her blev de instrueret i at undgå personfølsomme oplysninger for at lette senere anonymisering.
Samtalesessionerne gav mulighed for at indsamle mere naturligt sprog, herunder:
Begge sessionstyper var opdelt i tre runder á 20 minutter. Under optagelserne blev der afspillet forskellige typer baggrundsstøj i høretelefoner for også at registrere variation i tonefald og stemmeleje.
Derudover har projektet produceret to gange 17 timers oplæst tale fra professionelle indtalere, primært til træning og evaluering af TTS-modeller.
RESULTAT
Danish Conversational and Read-aloud Speech Dataset (CoRal)
Omfang
Datatyper
Primære anvendelser
Efter dataindsamlingen er taledataene blevet annoteret, valideret og anonymiseret. Arbejdet har både haft fokus på kvalitetssikring og på overholdelse af databeskyttelsesregler.
Stemmer er personhenførbare oplysninger og er derfor omfattet af databeskyttelsesforordningen (GDPR). Alle deltagere har derfor indgået en kontrakt med Alexandra Instituttet, som administrerer projektet.
Datasættet er udviklet efter en detaljeret annoteringsprotokol med fokus på:
Datasættet udgives løbende sammen med projektets sprogmodeller.
CoRal-datasættet skaber et vigtigt fundament for udviklingen af dansk taleteknologi. Ved at gøre data åbent tilgængelige sænkes adgangsbarriererne for både virksomheder, forskere og organisationer.
Dermed understøtter projektet innovation og nye anvendelser af taleteknologi i både den offentlige og private sektor.
Ressourcer
CoRal-projektets ressourcer er tilgængelige via:
Hugging Face