CORAL

CoRal-projektets videnskabelige arbejde

CoRal-projektet bidrager med metoder, ressourcer og forskning, der har stor værdi for både erhvervslivet og den offentlige sektor. Taleteknologi, der kan forstå og gengive sprog, rummer et enormt potentiale for at lette medarbejdernes hverdag, frigøre tid til faglig udvikling og styrke kontakten til kunder, borgere og kollegaer.

Projektets forskning – især inden for Natural Language Processing (NLP) – er foretaget af specialister i automatisk behandling, forståelse og generering af tekst.

Arbejdet har involveret bl.a. AI-specialister og antropologer fra Alexandra Instituttet samt forskergruppen på Datalogisk Institut ved Københavns Universitet.

Dialektforskning

Analyser fra DIKU har dannet grundlag for projektets dataindsamling med fokus på danske dialekter og demografier. De har både informeret rekrutteringen ved at identificere underrepræsenterede dialekter og frasorteret variationer uden nye sproglige bidrag til modeltræningen.

Samtidig er der udviklet en annoteringsprotokol i samarbejde med lingvister fra Københavns Universitet. Protokollen har guidet databehandlingen, mens arbejdsgange for transskribering og validering løbende er blevet forbedret.

Da taledata er personfølsomme, har projektet arbejdet målrettet med differentiel privacy for at sikre høj anonymitet i open source-datasæt og modeller.

Robuste algoritmer

Inden for taleteknologi – især talegenkendelse – varierer fejlraterne ofte mellem dialekter og accenter. Sprogmodeller, der er trænet på annoterede taledatasæt, præsterer typisk bedre for majoritetsgrupper end for minoriteter, hvilket kan føre til flere fejl og skæve sammenhænge for sidstnævnte.

Projektet har derfor haft et målrettet fokus på at udvikle algoritmer, der fungerer robust på tværs af dialekter, bl.a. ved brug af curriculum learning og auxiliary loss-funktioner.

Videnskabelige publikationer

CoRals publikationer dækker projektets centrale områder og er for størstedelens vedkommende udgivet som peer-reviewede artikler i anerkendte internationale tidsskrifter.

Gennem hele projektet har vi desuden haft tæt dialog med danske aktører inden for taleteknologi. Vi har bl.a. gennemført tre virksomhedsafdækninger, hvor virksomheder og organisationer har bidraget med indsigt i konkrete behov, udfordringer og fremtidsperspektiver.

Den første afdækning fokuserede på grundlæggende barrierer som bias, mangel på kvalitetsdata samt skævheder i dialekt- og kønsdækning. Den anden blev gennemført efter lanceringen af CoRal-taledatasættet og de første RØST-modeller og undersøgte, hvordan disse blev anvendt i danske SMV’er, samt hvordan de kunne videreudvikles. Den tredje afdækning giver et bredere overblik over aktører, der arbejder med dansk taledata og -teknologi, samt deres kendskab til CoRals ressourcer.

Karamolegkou, Antonia; et al. 2026. NLP for Social Good: A Survey and Outlook of Challenges, Opportunities and Responsible Deployment. The 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Rabat, Morocco.

Swain, Monorama; Maji, Bubai; Mishra, Jagabandhu; Schedl, Markus; Søgaard, Anders; Jensen, Jesper Rindom. 2026. Towards fair ASR for second language speakers using fairness prompted finetuning. 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Barcelona, Spain.

Peng, Qiwei; Chai, Yekun; Søgaard, Anders. 2025. Understanding Subword Compositionality of Large Language Models. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2025. Suzhou, China.

Peng, Qiwei; Hu, Guimin; Chai, Yekun; Søgaard, Anders. 2025. Debiasing Multilingual LLMs in Cross-lingual Latent Space. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2025. Suzhou, China.

Søgaard, Anders. 2024. Externalist XAI? Theoria 91(2).

Søgaard, Anders; Kappel, Klemens; Grünbaum, Thor. 2024. On Hedden’s Proof that Machine Learning Fairness Metrics are Flawed. Inquiry.

Swain, Monorama; van Zee, Anna Katrine; Søgaard, Anders. 2024. On Mitigating Performance Disparities in Multilingual Speech Recognition. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2024. Miami, Florida.

van Zee, Anna Katrine; van Zee, Marc; Søgaard, Anders. 2024. Group Fairness in Multilingual Speech Recognition Models. Findings of the North American Chapter of the Association for Computational Linguistics (NAACL). Mexico City, Mexico.

Hansen, Victor Petrén Bach; Neerkaje, Atula Tejaswi; Sawhney, Ramit, Flek, Lucie; Søgaard, Anders. 2024. The Impact of Differential Privacy on Group Disparity Mitigation. Findings of the North American Chapter of the Association for Computational Linguistics (NAACL). Mexico City, Mexico.

Karamolegkoy, Antonia; Li, Jiaang; Zhou, Li; Søgaard, Anders. 2023. Copyright Violations and Large Language Models. Conference on Empirical Methods in Natural Language Processing (EMNLP) 2023. Singapore, Singapore.

Rust, Phillip; Søgaard, Anders. 2023. Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models. The 40th International Conference on Machine Learning (ICML). Honolulu, Hawaii.

Lee, Seolhwa; Søgaard, Anders. 2023. Private Meeting Summarization Without Performance Loss. The 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. Taipei, Taiwan.

Formular indsendt!