CORAL

CoRal-projektets udvikling

Taleteknologi rummer et stort erhvervspotentiale og en vigtig demokratisk dimension: Den skal fungere for alle borgere – også dem med dialekt, accent eller særlige sproglige udfordringer.

Med dette udgangspunkt har CoRal-projektet arbejdet for at styrke fundamentet for, at taleteknologi i højere grad kan integreres i digitale services og organisatoriske processer i Danmark.

Adgangen til taleteknologi er i dag stadig krævende, både økonomisk og kompetencemæssigt. Det gør det vanskeligt for mange danske virksomheder og organisationer at udnytte teknologiens fulde potentiale. Samtidig har udviklingen primært fokuseret på store sprog som engelsk, mens dansk ofte har haft begrænset fokus.

Projektet har derfor trænet og lanceret ASR- (Automatic Speech Recognition) og TTS- (Text-to-Speech) modeller, som er frit tilgængelige for virksomheder, udviklere, forskere og myndigheder. Modellerne er baseret på dansk taledata og samles under navnet RØST – inspireret af menneskets stemme.

Gensidig påvirkning

CoRals taledatasæt er indsamlet i fire iterationer, så dialektfordeling, lydkvalitet og datatyper løbende er tilpasset RØST-modellernes behov og performance.

Samtidig har vi kontinuerligt evalueret og forbedret både optagesoftware og den open source-baserede modeltræningsplatform, CoRal-models, for at øge effektivitet og hastighed i dataindsamlingen. Denne vekselvirkning mellem dataindsamling og modeltræning har sikret, at datasættet er vokset i takt med de tekniske fremskridt.

Processen fra rå taledata til en færdigtrænet RØST-model består af flere trin:

  • Konvertering af taledatasæt til Hugging Face-format
  • Træning af en foreløbig valideringsmodel
  • Automatisk validering af taledatasættet
  • Opdeling i trænings-, validerings- og testdatasæt
  • Optimering af modeltræningsplatformen
  • Træning af sprogmodeller

 

Datakvalitet, validering og modeltræning

Datasættet er gjort tilgængeligt i et standardiseret format på Hugging Face Hub (hf.co), hvilket gør det lettere at udvikle danske sprogmodeller. Alle CoRals ressourcer er frit tilgængelige på platformen.

For at sikre høj datakvalitet er fejlbehæftede optagelser blevet fjernet, f.eks. hvis den indtalte tekst ikke matcher, hvis optagelsen er tom, eller hvis lydkvaliteten er for lav. Hertil er der udviklet en automatisk valideringspipeline baseret på en Wav2Vec2-model med 315 millioner parametre.

Det validerede datasæt er derefter opdelt i træning, validering og test: træningsdata bruges til at lære modellen, valideringsdata til at styre træningsforløbet, og testdata til endelig evaluering. Denne struktur har optimeret modeltræningsplatformen, bl.a. gennem en algoritme, der sikrer, at testdatasættet opfylder de demografiske krav med mindst mulig størrelse og dermed frigiver mere data til træning.

Projektet har efterfølgende trænet og udgivet en Wav2Vec2-model og en Whisper-model, hvis resultater har givet værdifuld feedback til den løbende dataindsamling.

Robuste modeller

Gennem hele projektet har vi arbejdet målrettet med udviklingen af ASR-modeller baseret på finjusterede versioner af Wav2Vec2 og Whisper. De underliggende arkitekturer er trænet på CoRal-taledatasættet, som indeholder over 468.000 ytringer, hvilket har styrket modellernes performance på dansk.

Dialekt- og accentvariationer i datasættet indgår aktivt i træningen og har været en central del af projektets active learning-tilgang, hvor menneskelig feedback løbende er integreret. Det har bidraget til, at modellerne fungerer robust på tværs af alder, køn og dialekter. Derudover er der tilføjet kunstig støj og lydforvrængning for at øge robustheden over for baggrundsstøj.

Tilsvarende er projektets TTS-modeller baseret på en finjustering af Chatterbox, herunder de multilingual og turbo-versioner. Disse er videreudviklet med omkring 2000 timers dansk tale, inklusiv CoRals TTS-datasæt. Modellerne understøtter desuden zero-shot voice cloning ud fra en kort lydprøve på cirka 10 sekunder.

Samlet set muliggør CoRal-projektet både højtydende talegenkendelse og talesyntese på dansk samt fleksibel anvendelse af forskellige modeltyper afhængigt af behov.

Model performance

RØST-modellerne overgår stort set alle tidligere modeller på tværs af alder, køn, dialekt og accent.

ASR-modellernes performance er målt på projektets testdatasæt og opgøres som CER (Character Error Rate), dvs. andelen af fejl i transskriptionen.

TTS-modellerne er evalueret med MOS (Mean Opinion Score) af et panel på 20 dansktalende deltagere.

Ressourcer

CoRals ressourcer er frit tilgængelige og lever op til relevante juridiske og etiske krav. Taledatasættet er udgivet under en OpenRAIL-D-licens (baseret på OpenRAIL-M), som tillader kommerciel brug med enkelte begrænsninger, bl.a. inden for talesyntese og biometrisk identifikation. ASR-modellerne følger samme licens, mens TTS-modellerne er open source via Chatterbox.

Vi opfordrer til at teste, anvende og videreudvikle RØST-modellerne. Målet er at styrke det danske teknologiske økosystem og udvikle taleteknologi, der kan forstå alle borgere.

CoRals ressourcer er tilgængelige via Hugging Face og du kan læse om vores licens her.

Formular indsendt!