
AI/kunstig intelligens
Er talegenkendelse kun noget for unge, hvide mænd? Det synes vi ikke.

- juli 6, 2022

Anders Jess Pedersen
AI Specialist
Hvis du skal opbygge et godt datasæt, så du kan lave god dansk talegenkendelse, skal du ud med en mikrofon og sample et bredt udsnit af befolkningen. Men når store techfirmaer udvikler deres sprogmodeller, er det ikke sikkert, det kan betale sig for dem at sample bredt. Måske giver det bedre mening for dem udelukkende at besøge gymnasier i hovedstadsområdet, fordi det er de unge dér, der bruger talegenkendelse.
Et af de bedre datasæt til dansk talegenkendelse er FT Speech, der er annoterede taler fra folketingssalen. Det er dog desværre heller ikke repræsentativt i forhold til race og køn, men det er en begyndelse.
Hvordan lærer vi så folkets stemme at kende? Common Voice er et crowdsourcing-initiativ startet af Mozilla, der lærer maskiner at forstå, hvordan mennesker taler. Her kan man donere sin stemme, og så er der andre, der verificerer, om du siger det, der står. På den måde bliver der opbygget et datasæt.
Problemet er bare, at det tilfældigvis mest er mænd, der indtaler tekstbidder i Common Voice. Vi har brug for flere kvinder, der taler, hvis vi skal opbygge gode datasæt. Der er også problemer med race. Så hvis du er sort eller kvinde, laver techgiganternes modeller dobbelt så mange fejl, og er du en sort kvinde, så er antallet af fejl fire gange så højt. Det grundlæggende problem er, at der er meget få, der bidrager, og dem, der gør, er hvide mænd.
En anden udfordring er dialekterne. Dem har vi 32 af i Danmark. Nordjysk udgør cirka 10 procent, mens der på Mandø kun er 33 personer, der taler dialekten. Og kigger man på anbefalingerne, som forklarer, hvordan man skal sample for at få den bedste performance, så betyder det, at man helst skal få alle, der taler mandøsk, til at indtale. Og man skal lade hver eneste af dem tale i lang tid for at få nok data.
Løsningen: Bedre data og en anden tilgang
Den skævhed, der er omkring køn, alder, race og dialekter, er netop noget af det, som vi arbejder på at rette op på i vores Grand Solutions-projekt. For det første tager vi ud med en mikrofon og snakker med en masse mennesker, både unge og ældre, kvinder og mænd og folk med forskellige baggrunde.
For det andet følger og tester vi forskningsbaserede guidelines i praksis: Vi indsamler dialekt-data i den anbefalede mængde, træner nogle modeller, vores industripartnere tester disse modeller, og så evaluerer vi. Hvis det så f.eks. viser sig, at talegenkendelsen stadig ikke forstår bornholmsk, så har vi et større fokus på bornholmere i næste runde. Det lyder måske indlysende, at man skal indsamle mere data, hvis det ikke virker, men det er bare ikke sådan, det hidtil er blevet gjort, hverken inden for forskningen eller erhvervslivet.
På universiteterne arbejder man traditionelt med proof of concept, og så er det fuldstændigt acceptabelt, at talegenkendelsen kun lykkes 95% af gangene. Og fra et akademisk synspunkt er det jo uinteressant, hvilke fem procent der ikke virker; det interessante er at finde ud af, om tilgangen i princippet kan fungere eller ej.
I erhvervslivet er det lidt anderledes: Her ser man på, hvem talegenkendelsen ikke virker for, og hvis det ikke kan betale sig at investere i at rette op på fejlen, ignorerer man bare den gruppe. Det er selvfølgelig ærgerligt for dem, hvis tale ikke bliver forstået, men det giver jo mening fra et forretningsmæssigt synspunkt.
Og det er jo præcist derfor, jeg synes, at vi løfter en samfundsopgave, når vi skaber bedre dansk talegenkendelse, der både hjælper borgerne og virksomhederne. For udover at gøre livet lettere for alle de slutbrugere, der bare gerne vil forstås, når de bruger talegenkendelse, så stiller vi også teknologien til rådighed for dem, der arbejder med det. Det vil løfte niveauet både for dem, der bare har brug for bedre datasæt, men også dem, der vil bygge produkter ovenpå vores modeller, og dem der vil facilitere og hjælpe andre organisationer i gang. Så det er et rigtigt spændende projekt at arbejde på.
"Vi løfter en samfundsopgave, når vi skaber bedre dansk talegenkendelse, der både hjælper borgerne og virksomhederne."
Anders Jess Pedersen Tweet
Vil du vide, hvordan dette projekt udvikler sig, så følg os på LinkedIn eller tag fat i mig her anders.j.pedersen@alexandra.dk. Du kan også følge udviklingen inden for dansk sprogteknologi på DaNLP, hvor vi har samlet en oversigt over danske ressourcer, der er til rådighed inden for dansk sprogteknologi.
Vores mest læste indlæg
bliv klogere på tech
Relateret viden

Udnyt realtidsdata til at forudsige og forbedre driften i kommunen
For kommuner, byplanlæggere og arkitektvirksomheder kan det være særligt interessant at måle på grønne kørselsmønstre, eller på hvordan byrum bliver brugt ved at forholde sig til data om bevægelsesstrømme. Og der bliver hele tiden bedre mulighed for at indsamle data om vores virkelighed fra de ting, der bevæger sig rundt om os, og som vi bevæger os rundt imellem. Det betyder, at vores ageren i den fysiske virkelighed hurtigt bliver omsat til data, der giver os et realtidsoverblik.

Supersoftware finder den bedste løsning
Dataopsamling, maskinlæring og kunstig intelligens er på alles læber i de her år. Men det er ikke lige nemt at implementere teknologierne for danske SMV’er.

Overlad regnestykket til AI – ikke beslutningen
Mængden af information, som en kunstig intelligens kan rumme og regne på, er uden sammenligning med den beskedne mængde, vi mennesker kan overskue. Det ved de fleste, og især dem der har taget AI i brug.

Forklaringer som vejen til bedre modeller
Når vi taler om forklarlig kunstig intelligens, så er omdrejningspunktet tit, hvordan vi får forklaret computerens beslutningsproces, så alle kan forstå det. Det er dog ikke kun i teknologiens møde med slutbrugeren, at forklaringer har værdi. Når vi udvikler ny teknologi, kan forklaringer illustrere, hvordan en model vægter data i sin beslutning, og herunder hvad der måske vægtes uhensigtsmæssigt. Den information kan så bruges til at justere sammensætningen af den data, vi træner på og selve træningsprocessen, så vi kan forbedre vores model.