Kunstig intelligens
Nyt gratis datasæt til at træne modeller med ‘tekst til tale’
‘Tekst til tale’ er relevant mange steder, og for at lette brugen af det har vi netop lagt et datasæt ud, som kvit og frit kan bruges af alle. Datasættet er lavet af to professionelle indlæsere, som hver har oplæst 24 timer af forskellige danske tekster, som kan være relevante i forskellige sammenhænge.
Det er tekster fra Sundhed.dk, Borger.dk og Lex.dk, der er Danmarks nationalleksikon, og så er det navne på alle busstoppesteder og stationer i landet samt dato og tider. Derudover er der nogle manuelt filtrerede kommentarer fra Reddit, som sikrer, at der kommer mere normal samtale ind i datasættet.
Datasættet kan gratis bruges af alle, som har planer om at træne modeller fra ‘tekst til tale’. Der er en masse eksisterende brugsscenarier, men det åbner også op for, at folk kan bruge datasættet til scenarier, hvor det ikke tidligere er blevet brugt.
Det kan være lydbøger, som ikke tidligere er blevet lavet, fordi det har været for dyrt at lave dem. Det kan også bruges til at lave en blogpost om til podcast, så folk kan høre det i bilen i stedet for at skulle læse det. Det gælder alt, der vedrører oplæsning.
Det kan også være mere serviceorienterede ting på hjemmesider, som kan være med til at understøtte til tekster til ordblinde og blinde, som skal navigere på offentlige hjemmesider, og som har brug for lyd. Derudover så håber vi, at det kan være med til at højne kvaliteten af dansk stemme syntese, der bruges alle de steder, hvor der er en digital stemmeagent.
I princippet kunne man også bruge det til ‘tale til tekst’, men med kun to oplæsere i datasættet, fungerer det ikke så godt til talegenkendelse. Det er vores store datasæt, CoRal, som snart bliver udgivet, og som kommer til at trække den del. Det fokuserer netop på at genkende dialekter og aldersgrupper, som det kræver indenfor talegenkendelse. I ‘tekst til tale’ er det derimod vigtigt, at du har mange timer med meget få mennesker.
Vi kommer også til at træne ‘tekst til tale’-modeller på de her åbne datasæt og udgive modellerne gratis for netop at mindske barrieren til at kunne bruge disse datasæt.
Fakta
CoRal-projektet er et samarbejde mellem Alexandra Instituttet, Department of Computer Science, University of Copenhagen – DIKU, Corti og Alvenir. Projektet er støttet af Innovationsfonden og Digitaliseringsstyrelsen.