CORAL
CoRal-projektets videnskabelige arbejde
CoRal-projektet bidrager med metoder, ressourcer og forskning, der har stor værdi for både erhvervslivet og den offentlige sektor. Taleteknologi, der kan forstå og gengive sprog, rummer et enormt potentiale for at lette medarbejdernes hverdag, frigøre tid til faglig udvikling og styrke kontakten til kunder, borgere og kollegaer.
Projektets forskning har været centreret om ASR, TTS, fairness, differential privacy og robusthed over for dialektale og akustiske variationer. Arbejdet har involveret AI-specialister og antropologer fra Alexandra Instituttet samt forskergruppen på Datalogisk Institut ved Københavns Universitet.
Inden for taleteknologi varierer fejlraterne ofte markant mellem dialekter og accenter. Sprogmodeller trænet på annoterede taledatasæt præsterer typisk bedre for majoritetsgrupper end for minoriteter – hvilket betyder flere fejl og skæve sammenhænge for talere med ikke-standard sprogbrug. Det rejser et grundlæggende spørgsmål om, hvem teknologien reelt fungerer for.
Projektet har derfor arbejdet målrettet med at kortlægge og reducere disse uligheder, bl.a. ved at udvikle fairness-metrikker specifikt tilpasset talegenkendelse og ved empirisk at undersøge, hvor og hvordan bias opstår i eksisterende systemer.
Taledata er blandt de mest personfølsomme datatyper, da stemmen kan afsløre identitet, helbred og demografiske træk. Projektet har arbejdet målrettet med differentiel privacy – en matematisk funderet metode til at tilføje kontrolleret støj til data eller modeller, så individers bidrag ikke kan spores tilbage.
Formålet er at muliggøre åbne og delebare datasæt og modeller uden at kompromittere anonymiteten. Et centralt resultat er en dybere forståelse af samspillet mellem privacy og fairness: de to hensyn kan nogle gange trække i samme retning, men kræver omhyggelig afbalancering i praksis.
God data er forudsætningen for fair modeller. I samarbejde med lingvister fra Københavns Universitet er der udviklet en annoteringsprotokol, der sikrer konsistens og sproglig præcision i behandlingen af taledata.
Protokollen har guidet hele databehandlingsprocessen og dannet ramme for løbende forbedringer af arbejdsgange til transskribering og validering. Det tværfaglige samarbejde har været centralt for at sikre, at de sprogvidenskabelige nuancer afspejles korrekt i de datasæt, modellerne trænes på.
For at imødegå dialektale og akustiske variationer er der udviklet læringsalgoritmer, der er designet til at fungere robust på tværs af sproglig mangfoldighed. Målet er ikke blot at forbedre den gennemsnitlige præstation, men at sikre at systemet fungerer rimeligt og pålideligt for alle brugergrupper, uanset dialekt eller accent.
Gennem hele projektet har vi haft tæt dialog med danske aktører inden for taleteknologi. Vi har bl.a. gennemført tre virksomhedsafdækninger, hvor virksomheder og organisationer har bidraget med indsigt i konkrete behov, udfordringer og fremtidsperspektiver.
Den første afdækning fokuserede på grundlæggende barrierer som bias, mangel på kvalitetsdata samt skævheder i dialekt- og kønsdækning. Den anden blev gennemført efter lanceringen af CoRal-taledatasættet og de første RØST-modeller og undersøgte, hvordan disse blev anvendt i danske SMV’er, samt hvordan de kunne videreudvikles. Den tredje afdækning giver et bredere overblik over aktører, der arbejder med dansk taledata og -teknologi, samt deres kendskab til CoRals ressourcer.
CoRals publikationer dækker projektets centrale områder og er for størstedelens vedkommende udgivet som peer-reviewede artikler i anerkendte internationale tidsskrifter.
Karamolegkou, Antonia; et al. 2026. NLP for Social Good: A Survey and Outlook of Challenges, Opportunities and Responsible Deployment. The 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Rabat, Morocco.
Swain, Monorama; Maji, Bubai; Mishra, Jagabandhu; Schedl, Markus; Søgaard, Anders; Jensen, Jesper Rindom. 2026. Towards fair ASR for second language speakers using fairness prompted finetuning. 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Barcelona, Spain.
Peng, Qiwei; Chai, Yekun; Søgaard, Anders. 2025. Understanding Subword Compositionality of Large Language Models. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2025. Suzhou, China.
Peng, Qiwei; Hu, Guimin; Chai, Yekun; Søgaard, Anders. 2025. Debiasing Multilingual LLMs in Cross-lingual Latent Space. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2025. Suzhou, China.
Søgaard, Anders. 2024. Externalist XAI? Theoria 91(2).
Søgaard, Anders; Kappel, Klemens; Grünbaum, Thor. 2024. On Hedden’s Proof that Machine Learning Fairness Metrics are Flawed. Inquiry.
Swain, Monorama; van Zee, Anna Katrine; Søgaard, Anders. 2024. On Mitigating Performance Disparities in Multilingual Speech Recognition. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2024. Miami, Florida.
van Zee, Anna Katrine; van Zee, Marc; Søgaard, Anders. 2024. Group Fairness in Multilingual Speech Recognition Models. Findings of the North American Chapter of the Association for Computational Linguistics (NAACL). Mexico City, Mexico.
Hansen, Victor Petrén Bach; Neerkaje, Atula Tejaswi; Sawhney, Ramit, Flek, Lucie; Søgaard, Anders. 2024. The Impact of Differential Privacy on Group Disparity Mitigation. Findings of the North American Chapter of the Association for Computational Linguistics (NAACL). Mexico City, Mexico.
Karamolegkoy, Antonia; Li, Jiaang; Zhou, Li; Søgaard, Anders. 2023. Copyright Violations and Large Language Models. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2023. Singapore, Singapore.
Rust, Phillip; Søgaard, Anders. 2023. Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models. The 40th International Conference on Machine Learning (ICML). Honolulu, Hawaii.
Lee, Seolhwa; Søgaard, Anders. 2023. Private Meeting Summarization Without Performance Loss. The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. Taipei, Taiwan.