CoRal - taledatasæt - Alexandra Instituttet

CORAL

Gratis dansk taledatasæt til udvikling af AI og taleteknologi

1000+ timers dansk tale fra dialekter og accenter – frit til forskning og udvikling

Taleteknologi udvikler sig hurtigt globalt, men udviklingen af dansk taleteknologi har længe været udfordret af, at dansk er et relativt lille sprogområde. Markedskræfterne alene har derfor ikke været nok til at drive udviklingen i samme tempo som for større sprog.

CoRal-projektet har haft som mål at styrke fundamentet for dansk taleteknologi ved at udvikle et omfattende og åbent taledatasæt med dansk tale af høj kvalitet.

Dansk betragtes som et lavressourcesprog, hvilket betyder, at der findes relativt få digitale sprogresurser til træning af kunstig intelligens og taleteknologi. Samtidig har tidligere datasæt kun dækket en begrænset del af befolkningen. CoRal-projektet har derfor haft fokus på at indsamle taledata, der i højere grad afspejler den sproglige variation i Danmark.

Parallelt med dataindsamlingen har projektet udviklet og trænet både ASR-modeller (Automatic Speech Recognition) og TTS-modeller (Text-to-Speech). Disse modeller har løbende været brugt til at vurdere behovet for yderligere data på tværs af dialekter, accenter, alder og køn.

En bred demografisk repræsentation

For at sikre et datasæt, der afspejler det danske sprog i praksis, har projektet arbejdet ud fra fem centrale parametre:

mængde af data
dialekter
køn
alder
accent

Datasættet dækker ni dialektgrupper: bornholmsk, fynsk, københavnsk, nordjysk, sjællandsk, sydømål, sønderjysk, vestjysk og østjysk.

Personer, der er flyttet til Danmark efter deres 15. år, registreres som talere med accent og indgår i en separat gruppe.

I alt er 32 dialekter dokumenteret, hvoraf syv områder har været særligt prioriterede for at sikre en god geografisk og dialektal spredning.

Dataindsamlingen har fundet sted på mere end 70 lokationer i hele landet, hvor over 1.000 personer i alderen 11–97 år har deltaget.

Deltagerne er opdelt i tre aldersgrupper:

under 25 år
25–50 år
over 50 år

Den ældste gruppe har en overvægt af kvinder, hvilket faktisk styrker datasættet, da både kvinder og ældre personer ofte er underrepræsenteret i andre taledatasæt.

Nationalt samarbejde

CoRal-projektet er gennemført som et bredt nationalt samarbejde mellem forskningsinstitutioner, virksomheder og offentlige organisationer. Danske biblioteker og kulturinstitutioner har spillet en central rolle i projektet ved at:

stille lokaler til rådighed
hjælpe med rekruttering
formidle projektet i lokale netværk

Optagelserne blev gennemført i lukkede eller relativt lydisolerede rum med samme tekniske opsætning for at sikre ensartet lydkvalitet. Rekrutteringen af deltagere skete blandt andet via:

bibliotekernes sociale medier
lokale foreninger
lokale aviser

Undervejs i projektet har danske virksomheder og organisationer også bidraget med input til datasættet. En vigtig efterspørgsel har været mere virkelighedsnær taledata, eksempelvis spontan tale, dårlig lydkvalitet, baggrundsstøj og rumklang.

Sproglig diversitet

Optagelserne bestod af to forskellige sessionstyper:

1. Højtlæsning 
Deltagerne læste en række foruddefinerede sætninger højt. Denne metode sikrede dækning af mange forskellige ord, udtryk og syntaktiske konstruktioner og bidrog til datasættets volumen.

2. Samtale 
To deltagere førte en mere fri samtale. Her blev de instrueret i at undgå personfølsomme oplysninger for at lette senere anonymisering.

Samtalesessionerne gav mulighed for at indsamle mere naturligt sprog, herunder:

dialektord
fagjargon
slang
spontan dialog

Begge sessionstyper var opdelt i tre runder á 20 minutter. Under optagelserne blev der afspillet forskellige typer baggrundsstøj i høretelefoner for også at registrere variation i tonefald og stemmeleje.

Derudover har projektet produceret to gange 17 timers oplæst tale fra professionelle indtalere, primært til træning og evaluering af TTS-modeller.

RESULTAT

Danish Conversational and Read-aloud Speech Dataset (CoRal)

Omfang

ca. 1.100 deltagere, 11-97 år
over 1.000 timers optagelser
300 timers samtaledata
32 dokumenterede dialekter, 7 særligt prioriterede

Datatyper

oplæst tale
samtale
– med og uden baggrundsstøj

Primære anvendelser

sundhedssektoren
finanssektoren
kundeservice
transskription
undertekster

Open source

Efter dataindsamlingen er taledataene blevet annoteret, valideret og anonymiseret. Arbejdet har både haft fokus på kvalitetssikring og på overholdelse af databeskyttelsesregler.

Stemmer er personhenførbare oplysninger og er derfor omfattet af databeskyttelsesforordningen (GDPR). Alle deltagere har derfor indgået en kontrakt med Alexandra Instituttet, som administrerer projektet.

Datasættet er udviklet efter en detaljeret annoteringsprotokol med fokus på:

anonymisering
ensartet transskription
kvalitetssikring af lydfiler

Datasættet udgives løbende sammen med projektets sprogmodeller.

CoRal-datasættet skaber et vigtigt fundament for udviklingen af dansk taleteknologi. Ved at gøre data åbent tilgængelige sænkes adgangsbarriererne for både virksomheder, forskere og organisationer.

Dermed understøtter projektet innovation og nye anvendelser af taleteknologi i både den offentlige og private sektor.

Ressourcer
CoRal-projektets ressourcer er tilgængelige via:
Hugging Face

Brancher

Domænekendskab er afgørende

Rådgivning og udvikling

Testfaciliteter

Digital bæredygtig omstilling

Forskning og innovation

Brugerindsigter

UX- og interaktionsdesign

Services

Fra idé til drift

Teknologier

Træk på vores ekspertise

Hent viden

Nyheder

Arrangementer

Bliv klogere

Hold dig opdateret på teknologi

Hvem er vi

Bestyrelsen

Karriereside

Ledige stillinger

KONTAKT

Book en it-konsulent

Om os

Forsknings- og udviklingshus

Gratis dansk taledatasæt til udvikling af AI og taleteknologi

En bred demografisk repræsentation

Nationalt samarbejde

Sproglig diversitet

Open source

Hvordan kan vi hjælpe?

Formular indsendt!