Søg
Close this search box.
Søg
Close this search box.

Kunstig intelligens

AI fanger aggressivt sprog for DR

Dan Saattrup Nielsen, Senior AI Specialist, PhD

På DR Nyheders Facebook-kanal kan politiske emner få folk helt op i det røde felt. Moderatorerne prøver at køre tonen lidt ned igen og sletter kommentarer, der er uacceptable.

Vi har fået fem millioner kommentarer fra DR og information om, hvilke 77.298 kommentarer var blevet slettet. Men vi trænede ikke vores model på de slettede kommentarer, som man normalt gør; vi brugte weak supervision, som er en nyere maskinlæringsmetode.

Bedst i test
Bagefter lavede vi et testdatasæt til at evaluere og sammenligne vores modeller med fire andre, der identificerer stødende tale på dansk. Det viste sig, at vores var langt, langt bedre.

Der er to målestokke for performance: præcision og recall. Høj præcision betyder, at modellen kun identificerer en kommentar som stødende tale, hvis den er det. Recall er mere som spredhagl, altså mindre præcist, men flere varianter af stødende tale bliver ramt. 

Høj recall er bedst, hvis man ligesom politiet ikke må overse en potentiel forbrydelse, og høj præcision er bedst, hvis man ligesom en god dommer ikke skal dømme uskyldige. Som moderator vil man helst have høj recall.  

Analyse & Tal lavede modellen A&ttack for to år siden, som har over 97% præcision. Til gengæld er dens recall nede på 50-60%, så den misser halvdelen af den stødende tale. Vores model har cirka 75% præcision; til gengæld fanger den omkring 90%.

Praksistest af ny metode
Forskningsmæssigt var projektet en oplagt mulighed for at teste, hvor godt weak supervision virker i praksis. Så vi lavede elleve regler, som hver for sig signalerer, om noget er stødende tale. Én fanger stødende ord; en anden analyserer følelser og tester, hvor positiv eller negativ en kommentar er osv. 

Sådan fik vi elleve forskellige opmærkninger med tre mulige værdier per kommentar: ’stødende tale’, ’ikke-stødende tale’, ’ved ikke’. Vi brugte en model til at aggregere opmærkningerne til én, som blev trænet på alle fem millioner kommentarer. 

Tre af os fra Alexandra Instituttet opmærkede derefter omkring 1.000 kommentarer manuelt. Når mindst to af os tre var enige, indgik kommentaren i det testdatasæt, vi brugte til at evaluere og sammenligne modellerne. 

Bliver vi overflødige?
Én af de funktioner, vi brugte, indikerede, om kommentaren var blevet slettet eller ej. Når vi udelod denne funktion, viste det sig, at modellens performance nærmest ikke ændrede sig. Det er spændende, for det var jo det eneste direkte menneskelige bidrag, og det var næsten overflødigt. 

Beviser det, at weak supervision virker? Kan maskiner lære at lære uden os? Måske. Nogle af de funktioner, vi brugte, er trænet på manuelt opmærkede data. Så måske har vi snarere videreført andres arbejde end brudt med superviseret læring, altså at mennesker overvåger maskinernes læring.

De funktioner, vi arbejdede med, er opstået, fordi vi har prøvet os frem og har bygget ovenpå andres arbejde. Jeg håber, at vores model bliver brugt af andre, så vi sammen kan blive endnu bedre i stedet for at konkurrere.

Hadtale er næste skridt
A&ttack-modellen har høj præcision, som måske skyldes, at dens træningsdata var manuelt opmærket og dermed af højere kvalitet. Analyse & Tal havde 63 millioner kommentarer, og de havde hyret en række folk til at opmærke cirka 70.000 kommentarer, som de efterfølgende havde trænet deres model på. Vores model har højere recall, fordi den blev trænet på fem millioner kommentarer, så der var meget mere variation i sproget.

Hvis vores metode kunne bruges direkte på de 63 millioner kommentarer fra Analyse & Tal, er der mere end ti gange så meget data som det, vi havde, som højst sandsynligt kan give os endnu bedre modeller. Det kan vi måske bruge i næste skridt, hvor vi vil lære at identificere hadtale.

Hvor stødende tale er ret generisk og tit bare viser, at nogen er grov, er hadtale en juridisk kategori og ulovlig. En anden forskel på stødende tale og hadtale er, at stødende tale er en bredere kategori, hvorimod hadtale hetzer mod en specifik befolkningsgruppe, for eksempel muslimer eller homoseksuelle.  Så nu hvor vi har lavet en model, der fanger stødende tale, er vi parate til næste skridt, som er at detektere hadtale.

Del dette:

Formular indsendt!