computer vision

DETR: Objektgenkendelse med transformere

Oliver Gyldenberg Hjermitslev

Oliver Gyldenberg Hjermitslev

Visual Computing Specialist

Facebook har for nyligt udviklet DETR, et objektgenkendelsesnetværk baseret på en deep learning-algoritme kendt som ‘transformer’. DETR, som står for DEtection TRansformer, er et skridt i den rigtige retning, idet det reducerer mængden af domænekendskab, udvikleren skal have. Det simplificerer resultaterne og beregningsprocessen, og præsenterer et stærkt resultat i både hastighed og præcision.

Ny version kan finpudses på ens eget datasæt

Der er dog et problem med dette værktøj; modellen er både dyr og langsom at træne, og deres open source-kode er ikke beregnet til brug med ens eget datasæt.

Derfor har vi udviklet en version af DETR, der nemt kan finpudses på ens eget datasæt. Det betyder, at den store mængde træning, Facebook selv har udført, ikke er spildt, og samtidig kan vi kan specialisere modellen til at finde præcis den slags objekter i billeder, vi kunne være interesserede i.

Du kan læse mere om DETR og vores kode her: https://towardsdatascience.com/training-detr-on-your-own-dataset-bcee0be05522. Der er desuden links til vores kode og en guide til at finpudse netværket.

"DETR, som står for DEtection TRansformer, er et skridt i den rigtige retning, idet det reducerer mængden af domænekendskab, udvikleren skal have. "

Oliver Gyldenberg Hjermitslev Tweet

Du er velkommen til at tage fat i mig, hvis du har kommentarer til vores version af DETR på oliver.gyldenberg@alexandra.dk.

bliv klogere på tech

Relateret viden

Forklaringer som vejen til bedre modeller

Når vi taler om forklarlig kunstig intelligens, så er omdrejningspunktet tit, hvordan vi får forklaret computerens beslutningsproces, så alle kan forstå det. Det er dog ikke kun i teknologiens møde med slutbrugeren, at forklaringer har værdi. Når vi udvikler ny teknologi, kan forklaringer illustrere, hvordan en model vægter data i sin beslutning, og herunder hvad der måske vægtes uhensigtsmæssigt. Den information kan så bruges til at justere sammensætningen af den data, vi træner på og selve træningsprocessen, så vi kan forbedre vores model.

Kan man lære at estimere et objekts orientering uden dataannotering?

For at estimere et givent objekts orientering i forhold til et kamera skal man først og fremmest kende, og genkende, objektets form og størrelse. Neurale netværk klarer disse opgaver godt, da de med nok data kan lære abstrakte koncepter. Dog er dataannotering, specielt til at estimere orientering og position, en lang, tidskrævende proces. Derfor har vi udviklet en motor til at generere syntetisk data til netop denne slags opgaver. Resultatet kan ses nedenfor.

Du kan altid tage kontakt

I tvivl om hvordan du kommer videre, og hvem du skal kontakte? Skriv til os her. Vi vender tilbage inden for 24 timer.

Formular indsendt!

Formularen er indsendt!