Dansk Sprogmodel Konsortium
Med Alexandra Instituttet, IBM Danmark og Dansk Erhverv i spidsen går de første danske private og offentlige organisationer nu sammen om at skabe danske sprogmodeller. Modellerne bygger på ufravigelige principper om ansvarlig AI.
Virksomheder der allerede er med i Dansk Sprogmodel Konsortium
Ønsker I også at være med?
- 2021.ai
- Aeven
- Ante
- ATP
- Bagger-Sørensen
- BUILD – Institut for Byggeri, By og Miljø, AAU
- Cbrain
- Cleardox
- DK Medier
- DLA Piper
- EdTech Denmark
- Falck
- Finanstilsynet
- FORA
- FSB
- FSR
- Globeteam
- HOFOR
- JN Data
- KL
- KomBit
- Københavns Kommune
- Lydmaskinen.dk
- Magenta, opensource it
- Makeable
- Norlys
- Odense Kommune
- Plesner
- Region Nord
- Salling Group
- SDC
- SKI
- Styrelsen for IT og Læring
- TDC
- Topdanmark
- Vejle Kommune
- Vertica
- Videncenter Bolius
- Visma Enterprise
- Vitec
- Aalborg Kommune
- Aarhus Kommune
– Det er en stor styrke for Danmark, at innovative kræfter på tværs af erhvervslivet og den offentlige sektor går sammen om at investere i at udvikle danskbaserede sprogmodeller. Dansk initiativ og investeringslyst er vigtigt for, at vi kan høste gevinsterne ved teknologien i Danmark og værne om dansk sprog og kultur. Det er afgørende, at udviklingen sker ansvarligt og sikkert, så vi kan have tillid til modellerne,” siger Digitaliseringsminister Marie Bjerre.
Dansk Sprogmodel Konsortium er et værdibaseret fællesskab, der er åbent for alle, der kan tilslutte sig dets formål og principper*. Medlemmerne vil sikre transparens og ophavsrettigheder til danske data, så sprogmodellerne trygt kan anvendes. I dag gør mange allerede brug af sprogmodeller, der dog ofte primært er trænet på store sprog som engelsk. De modeller kan derudover være underlagt andre værdisæt og anden regulering.
Der har været en enestående bred opbakning til vores fælles ide om en alliance, der kunne sætte skub i udviklingen af ansvarlige, danske sprogmodeller, og døren står åben for, at flere ligesindede deltager. Initiativet vil med garanti sætte ny fart i digitaliseringen herhjemme, da vi kan have tillid til vores danske sprogmodeller, siger Thomas Kovsted, adm. direktør, IBM Danmark
Fælles, gratis og ansvarlige AI-baserede sprogmodeller på dansk vil blive et nationalt aktiv og sikre den fortsatte digitale udvikling af Danmark. Konsortiets rolle er at bidrage med danske data og use-cases. Udviklingen af grundmodellerne sker i regi af Danish Foundation Models, der er et samarbejde mellem Aarhus Universitet, Københavns Universitet, Syddansk Universitet og Alexandra Instituttet, siger Jens Kaas Benner, Head of AI Lab ved Alexandra Instituttet, der er én af initiativtagerne bag konsortiet.
Modellerne hviler på en række ufravigelige principper som transparens, open source og databeskyttelse. Principperne sikrer, at den offentlige sektor og erhvervslivet kan have tillid til modellerne og kan anvende danskbaserede AI-sprogmodeller f.eks. til at løfte serviceniveauet, frigøre ressourcer til borgernære serviceydelser, styrke konkurrenceevnen og skabe vækst og velfærd i Danmark. Modellerne kan også understøtte åben, dansk forskning og uddannelse, da de kan tilgås gratis af alle, udtaler Casper Klynge, SVP, Dansk Erhverv.
Hos EdTech-virksomheden Ordbogen A/S arbejder vi med sprogteknologi til uddannelsessektoren. Vi har over 500.000 elever og studerende på vores platforme hver uge, der løser millioner af opgaver. Vores værditilbud til brugerne ville blive væsentligt bedre, hvis vi integrerede danske sprogmodeller. Derfor går vi selvfølgelig med, så vores tekstretter og individuelle, skræddersyede læringsforløb kan blive markant bedre for både svage og stærke studerende, siger Peter Revsbech, Adm. direktør i Ordbogen.com.
Jeg er meget glad for initiativet, da en dansk sprogmodel kan blive et stort aktiv for os. Vi brænder på den ene side for at arbejde med og udnytte mulighederne i generativ kunstig intelligens. På den anden side er det helt afgørende, at det sker på en tryg og sikker måde, hvor borgerne kan have tillid til vores databehandling. Hidtil har både lovmæssige og etiske barrierer stået i vejen for at udnytte det fulde potentiale ved generativ kunstig intelligens, men med alliancen om at udvikle nye, danske sprogmodeller ser vi muligheder i at overkomme barriererne. Initiativet flugter fuldstændig, hvordan vi gerne vil arbejde med kunstig intelligens, og jeg ser positive og fremadskuende perspektiver i det ambitiøse samarbejde, siger borgmester i Aarhus Kommune, Jacob Bundsgaard.
FAQ
Spørgsmål
Hvad er fokus med konsortiet?
Vi laver danske sprogmodeller, der understøtter use-cases, hvor det giver mening i en dansk kontekst. Vi laver altså ikke en konkurrent til ChatGPT, et al.
Hvor får vi data fra?
Medlemmer af konsortiet donerer data til os, som vi træner modeller på. Hvis dataejeren ønsker det, bliver data open sourced.
Hvad er udviklingen af sprogmodeller funderet i?
Det faglige fundament og udviklingen af sprogmodeller er funderet i Danish Foundation Models, som er et samarbejde mellem Alexandra Instituttet, Københavns Universitet – University of Copenhagen (Professor Bolette Pedersen), Syddansk Universitet – University of Southern Denmark (Professor Peter Schneider-Kamp) og Aarhus University (Professor Kristoffer Nielbo) /2/.
Brug af supercomputere
Da danske universiteter er med i DFM, har vi adgang til ni EU-betalte supercomputere. Pt bruger vi den største af dem alle: LUMI supercomputer. EU er ved at bygge flere supercomputere, og Novo Nordisk er også i gang!
Hvilke modeller træner vi?
De modeller, vi træner, og størrelsen af dem afhænger af, hvor meget data vi får doneret. Til at starte med kommer vi til at basere os på eksisterende open source modeller.
Bliver modellerne open source?
Alle modeller vil blive frigivet til open source og må bruges kommercielt
Vi samarbejder fra ATPs side meget gerne om at få flere sprogmodeller at vælge imellem. En dansk sprogmodel vil kunne give både transparens omkring træningsdata og samtidig beskytte vores egne data ved at basere modellen på regulerede datakilder. Derudover kan danske sprogmodeller blive et nationalt aktiv, der er tilgængeligt for alle både kommercielle og ikke-kommercielle aktører, så vi kan accelerere den digitale udvikling i Danmark, Koncerndirektør Anne Kristine Axelsson, ATP
Bliv en del af konsortiet
Dansk Sprogmodel Konsortium er åben for alle, der kan skrive under på de principper og forpligtelser, der ligger til grund for de danske sprogmodeller.
jens.benner@alexandra.dk
*Principper og forpligtelser
Principper:
DFM vil udvikle danske sprogmodeller og forpligter sig til at udvikle dem med afsæt i følgende principper:
1. Åbne og gratis: De udviklede danske sprogmodeller skal være open source og derfor til enhver tid være fri og gratis tilgængelige for alle, og de kan anvendes kommercielt.
2. Overholde lovgivning: De anvendte data og udviklede sprogmodeller skal til enhver tid overholde dansk lov og EU-lovgivning, herunder GDPR og AI Act.
3. Data: Modellerne skal trænes på datasæt, som er godkendt til formålet af opretshaverne. Data skal filtreres for personinformation, inden de må bruges til træning af modellerne. Data må ikke forlade EU.
4. Transparens og etik: Der skal være transparens i forhold til datakilder og modeltræning, samt sikkerhed for at danske værdier og etik er indarbejdet.
5. Sikkerhed: Der implementeres robuste sikkerhedsprotokoller, der beskytter data og modellerne mod potentielle sårbarheder, samt sikrer, at data kun anvendes til udvikling af danske sprogmodeller.
Forpligtigelse:
Medlemmer af Dansk Sprogmodel Konsortiet forpligtiger sig til:
1. Offentlighed: At promovere initiativet og indvilge i at offentliggøre deres deltagelse.
2. Use-cases: At dele deres relevante use-cases i Konsortiet med henblik på modellens fortsatte udvikling. Derudover opfordres medlemmerne til at dele use-cases i offentligheden for at inspirere til udbredelse af modellernes anvendelse.
3. Data adgang: At dele datasæt løbende med DFM, som kan anvendes til at træne danske modeller på.
4. Tilslutning til pricipper: At erklære sig enige i, at principperne for udvikling af de danske sprogmodeller også er fundamentet for en ansvarlig implementering og anvendelse af kunstig intelligens.
Formål og principper
PRINCIPPER
DFM vil udvikle danske sprogmodeller og forpligter sig til at udvikle dem med afsæt i følgende principper:
1. Åbne og gratis: De udviklede danske sprogmodeller skal være open source og derfor til enhver tid være fri og gratis tilgængelige for alle, og de kan anvendes kommercielt.
2. Overholde lovgivning: De anvendte data og udviklede sprogmodeller skal til enhver tid overholde dansk lov og EU-lovgivning, herunder GDPR og AI Act.
3. Data: Modellerne skal trænes på datasæt, som er godkendt til formålet af opretshaverne. Data skal filtreres for personinformation, inden de må bruges til træning af modellerne. Data må ikke forlade EU.
4. Transparens og etik: Der skal være transparens i forhold til datakilder og modeltræning, samt sikkerhed for at danske værdier og etik er indarbejdet.
5. Sikkerhed: Der implementeres robuste sikkerhedsprotokoller, der beskytter data og modellerne mod potentielle sårbarheder, samt sikrer, at data kun anvendes til udvikling af danske sprogmodeller.
FORPLIGTELSE
Medlemmer af Dansk Sprogmodel Konsortium forpligter sig til:
1. Offentlighed: At promovere initiativet og indvilge i at offentliggøre deres deltagelse.
2. Use-cases: At dele deres relevante use-cases i Konsortiet med henblik på modellens fortsatte udvikling. Derudover opfordres medlemmerne til at dele use-cases i offentligheden for at inspirere til udbredelse af modellernes anvendelse.
3. Dataadgang: At dele datasæt løbende med DFM, som kan anvendes til at træne danske modeller på.
4. Tilslutning til pricipper: At erklære sig enige i, at principperne for udvikling af de danske sprogmodeller også er fundamentet for en ansvarlig implementering og anvendelse af kunstig intelligens.