03/11/2023

Kunstig intelligens

Nyt samarbejde skal lave sprogmodel til dansk og andre germanske sprog

Et nyt storstilet EU-forskningsprojekt skal udvikle en germansk sprogmodel. Arbejdet giver værdifuld erfaring til næste store opgave: At udvikle en dansk sprogmodel til use cases, der giver mening.

De fleste kender til og bruger allerede flittigt ChatGPT og Bard. Det er sprogmodeller i lukkede systemer, der primært er trænet på store sprog som engelsk drevet af kommercielle interesser i USA. Så nu melder EU sig på banen for de germanske sprog og for at bevare mangfoldigheden. De store systemer har nemlig en slagside, som EU og andre ikke bryder sig om. De er underlagt anden regulering og kultur, hvilket betyder, at europæerne bliver tvunget ind i systemer, der ikke lever op til europæiske værdisæt for ‘human-centered, trustworthy og democratised’ kunstig intelligens.

– Kunstig intelligens er et tog, der kører, og det kommer til at påvirke mindst 80% af arbejdsstyrken. Får vi ikke tilgodeset vores sprog, løber de andre med alle mulighederne. Vi må sikre vores sprog og yderligere opbygge vores kompetencer for at sikre egne interesser, siger Torben Blach, der er vores projektleder på det nye ambitiøse forskningsprojekt TrustLLM.

Med dette projekt kommer vores eksperter til at samarbejde med de absolut stærkeste europæiske forskere inden for sprogteknologi. Som GTS-institut er det en rolle, som instituttet tager meget seriøst. Erfaringerne skal nemlig bidrage til det nationale store stykke arbejde, der ligger foran os for med tiden at lave en dansk sprogmodel.

– Vi er nu med i den gruppe af vigtige aktører, der er gået sammen om at udvikle modellerne til de germanske sprog. Med samarbejdet opbygger vi vores kompetencer yderligere og får et førstehåndsindtryk af de data, der indsamles, og som modellerne skal trænes på, siger Torben Blach.

Med projektet etablerer EU nogle rammer og giver muligheder for, at de bedste inden for natural language-området kan arbejde sammen på tværs af EU.

Open source og AI bør gå hånd i hånd
Projektet kommer også til at kigge på både den etiske, den forskningstunge og den forretningsmæssige side af AI. Vores Senior AI Specialist og ph.d. Dan Saattrup Nielsen understreger, at vi i dag ser en række begrænsninger med de modeller, der er udviklet. Derfor er den primære motivation at bruge open source-tankegangen.

– Open source gør det muligt at demokratisere brugen af modeller, så de er for de mange og ikke de få. Lige nu har vi ikke nogen open source-model for det danske sprog. Derfor er vi tvunget til at bruge de amerikanske modeller. Det ønsker vi i den grad at lave om på, så ikke få men mange kan få glæde af modellerne og skabe innovation og meningsfulde use cases, forklarer han.

Magten ligger hos de få, ikke de mange, og netop den afhængighed gør os meget sårbare, hvis de beslutter at nedlægge eller sætte prisen markant op for de modeller. Så har vi intet andet valg end at følge trop.

– Vi er afhængige af andres data og modellens struktur, som samtidig er lukket, så vi ikke kender logikken. Derfor skal vi gøre modellerne bedre og fikse de ting, som vi har set, at eksempelvis ChatGPT er skidt til. Det kan være bias, som vi gennem vores forskning skal minimere i træning af modellen. Vi skal også minimere antal gange, modellerne hallucinerer og finder på facts ud af det blå, siger han.

Open source skal skabe forretning
Partnerne får gennem projektet penge til at udvikle modellen, der skal lægges ud som open source, det vil sige gratis. Dermed kan modellen agere som startskud for virksomheder til at lave produkter, som de kan tjene penge på, da deres data science-afdelinger kan bruge den internt.

– Vi kan træne og udgive de her modeller, så de kan downloades lokalt på virksomheders egne servere in-house. De behøver dermed ikke dele data med nogen. Det gør det mere sikkert at bruge modellen, og samtidig kan hver virksomhed tune deres model efter deres behov, forklarer Dan.

Ifølge Dan vil den tilgang gøre det lettere at lave en masse modeller, der er designet til specifikke use cases. Det kunne være en model, som laver journalnotater, der kan drage nytte af den. Pointen er, at når man demokratiserer modellerne, kan alle hive dem ned og tilpasse til det, de har brug for.

– I dag skal vi bruge de færdigpakkede løsninger fra USA. Men hvis modellen ligger offentligt tilgængeligt, kan der komme en god business case ud af den for mange virksomheder. De vil kunne lave produkter, der gør det let at bruge. Hostede løsninger a la ChatGPT. Dertil giver det også muligheder for den offentlige sektor, da mange jo ikke må bruge ChatGPT i dag.

Konkurrencedygtig europæisk sprogmodel
Formålet med samarbejdet er at sikre en konkurrencedygtig europæisk sprogmodel, der lever op til de værdisæt, vi har i EU, og som skal kunne bruges i udvikling i lavressourcelande med de små sprog som Danmark.

Omkostninger reduceres på den måde, da de vil være høje i lande med små sprog. Nu skal arbejdet i gang med at bygge en processeringsinfrastruktur, skaffe de underliggende data, gøre dem tilgængelige og etablere den massive computerkraft, som modellerne kræver.

– Vi arbejder med et setup, hvor man har adgang til et maksimalt datasæt i et storagesystem, der kan bruges til træning, og som kan kopieres fleksibelt. Vi får adgang til en stor mængde af underliggende træningsdata i minimum seks germanske sprog som tysk, hollandsk, norsk, svensk, islandsk og dansk, understreger Torben Blach.

Fakta om TrustLLM

Formål
Hovedmålet er at udvikle en åben, troværdig og bæredygtig sprogmodel (LLM), der i første omgang er målrettet de germanske sprog. Den skal danne grundlag for et avanceret, åbent økosystem til næste generation af modulære og udvidelige europæiske sprogmodeller, som er troværdige, bæredygtige og demokratiserede. TrustLLM-projektet og det omgivende økosystem skal muliggøre, understøtte og forbedre kontekstbevidst menneske-maskin interaktion inden for en bred vifte af anvendelser.

Partnere
Linköpings Universitet (LIU), Sverige
Fraunhofer, Tyskland
Forschungszentrum Julich, Tyskland
Lindholmen Science Park Aktiebolag, Sverige
Mioeind EHF., Island
Haskoli Islands, Island
Københavns Universitet, Danmark
Alexandra Instituttet, Danmark
Norges Teknisk-Naturvitenskapelige Universitet (NTNU), Norge
Nederlandse Organisatie Voor Toegepast, Holland
Akademie für Künstliche Intelligenz, Tyskland

Finansiering
Horizon Europe Framework Programme (HORIZON) 6,9 mio. Euro.

Periode
November 2023 – oktober 2026

Du kan finde en engelsk version af artiklen her

Del dette:

Brancher

Domænekendskab er afgørende

Rådgivning og udvikling

Testfaciliteter

Digital bæredygtig omstilling

Forskning og innovation

Brugerindsigter

UX- og interaktionsdesign

Services

Fra idé til drift

Teknologier

Træk på vores ekspertise

Download viden

Nyheder

Arrangementer

Bliv klogere

Hold dig opdateret på teknologi

Hvem er vi

Bestyrelsen

Jobs

KONTAKT

Book en it-konsulent

Om os

Almennyttigt forsknings- og udviklingshus

Kunstig intelligens

Nyt samarbejde skal lave sprogmodel til dansk og andre germanske sprog

Fakta om TrustLLM

Hvordan kan vi hjælpe?

Formular indsendt!