AI/kunstig intelligens

Er talegenkendelse kun noget for unge, hvide mænd? Det synes vi ikke.

Anders Jess Pedersen

Anders Jess Pedersen

AI Specialist

De store techselskaber koncentrerer sig om deres kernemålgrupper, når de skal udvikle sprogmodeller, der fungerer fra tekst til tale. Derfor fungerer talegenkendelsen bedre, hvis du er en ung, hvid mand fra København, men ikke hvis du er kvinde, sort, oppe i årene eller taler dialekt.

Hvis du skal opbygge et godt datasæt, så du kan lave god dansk talegenkendelse, skal du ud med en mikrofon og sample et bredt udsnit af befolkningen. Men når store techfirmaer udvikler deres sprogmodeller, er det ikke sikkert, det kan betale sig for dem at sample bredt. Måske giver det bedre mening for dem udelukkende at besøge gymnasier i hovedstadsområdet, fordi det er de unge dér, der bruger talegenkendelse.

Et af de bedre datasæt til dansk talegenkendelse er FT Speech, der er annoterede taler fra folketingssalen. Det er dog desværre heller ikke repræsentativt i forhold til race og køn, men det er en begyndelse.

Hvordan lærer vi så folkets stemme at kende? Common Voice er et crowdsourcing-initiativ startet af Mozilla, der lærer maskiner at forstå, hvordan mennesker taler. Her kan man donere sin stemme, og så er der andre, der verificerer, om du siger det, der står. På den måde bliver der opbygget et datasæt.

Problemet er bare, at det tilfældigvis mest er mænd, der indtaler tekstbidder i Common Voice. Vi har brug for flere kvinder, der taler, hvis vi skal opbygge gode datasæt. Der er også problemer med race. Så hvis du er sort eller kvinde, laver techgiganternes modeller dobbelt så mange fejl, og er du en sort kvinde, så er antallet af fejl fire gange så højt. Det grundlæggende problem er, at der er meget få, der bidrager, og dem, der gør, er hvide mænd.

En anden udfordring er dialekterne. Dem har vi 32 af i Danmark. Nordjysk udgør cirka 10 procent, mens der på Mandø kun er 33 personer, der taler dialekten. Og kigger man på anbefalingerne, som forklarer, hvordan man skal sample for at få den bedste performance, så betyder det, at man helst skal få alle, der taler mandøsk, til at indtale. Og man skal lade hver eneste af dem tale i lang tid for at få nok data.

Løsningen: Bedre data og en anden tilgang

Den skævhed, der er omkring køn, alder, race og dialekter, er netop noget af det, som vi arbejder på at rette op på i vores Grand Solutions-projekt. For det første tager vi ud med en mikrofon og snakker med en masse mennesker, både unge og ældre, kvinder og mænd og folk med forskellige baggrunde.

For det andet følger og tester vi forskningsbaserede guidelines i praksis: Vi indsamler dialekt-data i den anbefalede mængde, træner nogle modeller, vores industripartnere tester disse modeller, og så evaluerer vi. Hvis det så f.eks. viser sig, at talegenkendelsen stadig ikke forstår bornholmsk, så har vi et større fokus på bornholmere i næste runde. Det lyder måske indlysende, at man skal indsamle mere data, hvis det ikke virker, men det er bare ikke sådan, det hidtil er blevet gjort, hverken inden for forskningen eller erhvervslivet.  

På universiteterne arbejder man traditionelt med proof of concept, og så er det fuldstændigt acceptabelt, at talegenkendelsen kun lykkes 95% af gangene. Og fra et akademisk synspunkt er det jo uinteressant, hvilke fem procent der ikke virker; det interessante er at finde ud af, om tilgangen i princippet kan fungere eller ej.

I erhvervslivet er det lidt anderledes: Her ser man på, hvem talegenkendelsen ikke virker for, og hvis det ikke kan betale sig at investere i at rette op på fejlen, ignorerer man bare den gruppe. Det er selvfølgelig ærgerligt for dem, hvis tale ikke bliver forstået, men det giver jo mening fra et forretningsmæssigt synspunkt.

Og det er jo præcist derfor, jeg synes, at vi løfter en samfundsopgave, når vi skaber bedre dansk talegenkendelse, der både hjælper borgerne og virksomhederne. For udover at gøre livet lettere for alle de slutbrugere, der bare gerne vil forstås, når de bruger talegenkendelse, så stiller vi også teknologien til rådighed for dem, der arbejder med det. Det vil løfte niveauet både for dem, der bare har brug for bedre datasæt, men også dem, der vil bygge produkter ovenpå vores modeller, og dem der vil facilitere og hjælpe andre organisationer i gang. Så det er et rigtigt spændende projekt at arbejde på.

"Vi løfter en samfundsopgave, når vi skaber bedre dansk talegenkendelse, der både hjælper borgerne og virksomhederne."

Vil du vide, hvordan dette projekt udvikler sig, så følg os på LinkedIn eller tag fat i mig her anders.j.pedersen@alexandra.dk. Du kan også følge udviklingen inden for dansk sprogteknologi på DaNLP, hvor vi har samlet en oversigt over danske ressourcer, der er til rådighed inden for dansk sprogteknologi.

bliv klogere på tech

Relateret viden

Opbyg en kultur, hvor omstillingsparathed er i jeres DNA

Teknologier ændrer grundlæggende den måde, du driver forretning på. Men det er ifølge McKinseys rapport ‘Unlocking success in digital transformations’ fra 2018 kun 30% af digitaliseringsprojekter, der bliver en succes. Og kun 16% af respondenterne oplever, at transformationen giver en øget performance. Så hvad er det, der ikke lykkes?

Udnyt realtidsdata til at forudsige hændelser, og brug forklarlig AI, så beslutningen bliver forstået og accepteret

Vi opsamler realtidsdata som aldrig før. Og der bliver hele tiden bedre mulighed for at indsamle data om vores virkelighed fra de ting, der bevæger sig rundt om os. Det betyder, at vores ageren i den fysiske virkelighed hurtigt bliver omsat til data – også kaldet realtidsovervågning. Disse data kan vise os trafikmønstre, hvordan vi bruger bygninger, og de giver nye muligheder for formidling af events og for at koordinere mellem ting, der bevæger sig.

Du kan altid tage kontakt

I tvivl om hvordan du kommer videre, og hvem du skal kontakte? Skriv til os her. Vi vender tilbage inden for 24 timer.

Formular indsendt!

Formularen er indsendt!