Chatter du med ChatGPT, når du skal have løst en opgave? Ny forskning peger på, at det er en fejl.
ChatGPT er designet til samtale. Det er det samme for alternativerne til ChatGPT som Claude og Gemini, med flere. Den AI som ligger inde bagved, er trænet til at være hjælpsom, imødekommende og aldrig sige nej, medmindre man beder om noget som er amoralsk eller ulovligt. “Ja-hatten” sidder så godt fast, at AI utilsigtet fører dig ud et sted hvor ingen af jer kan bunde. Vi har hurtigt vænnet os til den samtalebaserede grænseflade, men vi bruger den forkert… helt forkert.
Ny forskning viser at snakkesalige interaktioner får ChatGPT, Claude og Gemini til at snuble over deres egne fødder, underpræstere og i sidste ende fare vild i samtalen? Det er tid til at vi forholder os til, hvordan vi interagerer med AI’er, ikke kun hvilken opgave den skal udføre, men også hvordan den skal udføres.
Fremadrettet i denne blog-post kalder vi chatbaseret AI for LLM (Large Language Model = Store Sprogmodeller)[1] som er den korrekte term for den type af AI som vi interagerer med, når vi chatter.).
Vi har nu bevis på det, vi længe har formodet.
En videnskabelig artikel med titlen “LLMs Get Lost in Multi-Turn Conversation”[2], Philippe Laban, med flere, dykker ned i netop dette spørgsmål. resultaterne er opsigtsvækkende: LLM’er, på trods af deres samtalebaserede design, præsterer markant dårligere, når information om en opgave som skal løses, gives til dem stykkevis over flere chatrunder, sammenlignet med når de modtager en enkelt, omfattende instruktion på forhånd.
Den analyserer resultaterne af studier af en lang række rigtige simulerede samtaler mellem LLM’er og brugere, bekræfter at brugere ofte giver ufuldstændige instruktioner og stoler på den samtalebaserede strøm til at udfylde hullerne.
Evalueringen af disse LLM’er fokuseret på, hvad artiklen kalder “single-turn, fully-specified instruction setting.” Dette svarer til at give LLM’en én perfekt, detaljeret prompt og bedømme dens output. Forskerne bag “LLMs Get Lost in Multi-Turn Conversation” besluttede at sammenligne dette ideelle scenarie med den mere almindelige, samtalebaserede tilgang.
Forskerne kørte simulationer på en lang række af de aller nyeste LLM’er og disse bekræftede et betydeligt problem: “Alle LLM’er vi testede, udviste markant forringede resultater i samtalebaserede brugerinteraktioner, end når en komplet, præcis, og entydig instruktion blev givet første gang, med et gennemsnitligt fald på 39% på tværs af seks typer af opgaver.” Der sker med andre ord en betydelig forringelse af resultatet, når LLM’er tvinges til at sammensætte information om brugerens behov gennem en samtale.
Hvorfor farer LLM’er vild i samtalen?
Artiklen introducerer “faret vild i samtale-fænomenet”: når LLM’er tager en forkert drejning i en multi-turn samtale, farer de ofte vild og, afgørende, kommer sig ikke. Forskerne identificerede flere årsager til denne tilbagegang:
- Forhastede antagelser og løsninger: I de tidlige runder af en samtale, når information stadig er sparsom, har LLM’er en tendens til at lave antagelser for at udfylde hullerne. De forsøger forhastet at generere endelige løsninger baseret på ufuldstændige data.
- Alt for lange svar: LLM’er trænet til samtalebaseret interaktion og genererer ofte meget lange svar. Disse lange svar handler ikke kun om ordantal; de kan introducere yderligere usagte antagelser eller distrahere fra brugerens faktiske krav, hvilket mudrer samtalen. Der er et tydeligt sammenfald mellem længden af svarene fra LLM’en og forringede resultater. Derud kan man som bruger uforvarende komme til at afspore samtalen ved at forvirre modellen om ens krav i forhold til LLM’ens egne tidligere udsagn.
- Forkerte delkonklusioner fører til fejl: Når en LLM har lavet en antagelse eller foreslået en delvis (og potentielt mangelfuld) løsning, har den en tendens til at overdrevent stole på disse tidligere forsøg som ofte indeholder dens egne forkerte delkonklusioner. Det fører til længere og mere indviklede svar, hvori tidligere fejl er indarbejdet. Fejlene hober sig med andre ord op hen over samtalen og rettelser fra brugeren er ofte ikke nok til at styre LLM’en tilbage på rette spor.
- Glemmer midten: Ligesom mennesker nogle gange kan miste tråden i midten af en lang diskussion, har LLM’en en tendens til at være mere opmærksom på de de tidligste (første) og de seneste (sidste) dele af samtalen. Den glemmer med andre ord information, der er givet i mellemliggende runder.
Det som skulle være en løsningsorienteret dialog mellem dig og LLM’en, tager en forkert drejning og i farer begge vild, og modsat Hans og Grete, kommer I ikke hjem igen, men bliver spist af heksen.
Simulering af virkelige chats: Et kig på studiet
For at nå frem til disse konklusioner udviklede forskerne et sofistikeret simuleringsmiljø. De omdannede eksisterende detaljerede instruktioner af høj kvalitet, som havde fuldendt information til at kunne løse opgaven og som man vidste kunne løse den stillede opgave med en bestemt successrate, til en række “opdelte instruktioner” som man ville have i en samtale. Hver stykke information i de opdelte instruktioner, afsløredes derefter for LLM’en én ad gangen under en samtale. Denne proces efterligner, hvordan en bruger gradvist kan afsløre sine behov i en rigtig chat, startende med en underspecificeret anmodning.
Disse simuleringer blev kørt på tværs af et forskelligartet sæt af seks opgavetyper. Eksperimenterne involverede 15 forskellige LLM’er, omfattende både førende open source (gratis AI-modeller) og proprietære modeller (abonnementsbaserede).
Stor forskel på en enkelt prompt, og lange samtaler.
De samlede resultater fra artiklen viser at chancen for at få løst den stillede opgave, forringes gennemsnitligt 39%, når man sammenligner én instruktion med fuldendt information, i forhold til den opdelte, samtalebaserede type af instruktion.
Tallene er et udsnit af resultaterne fra studiet, som dækkede 15 LLM’er.
Tallene er slående. De demonstrerer et konsekvent og betydeligt mønster: selv de mest avancerede LLM’er kæmper, når opgaver præsenteres samtalebaseret frem for som en enkelt, omfattende instruktion. Artiklen bemærker yderligere: “Overraskende nok farer mere velfungerende modeller (Claude 3.7 Sonnet, Gemini 2.5, GPT-4.1) lige så meget vild i samtale sammenlignet med mindre modeller… uanset hvor stærk en LLM’s single-turn ydeevne er, observerer vi store ydeevneforringelser i multiturn indstillingen.”
LLM’erne bliver upålidelig. Selvom de kunne producere et godt svar, gør det samtalebaserede format det langt mindre sandsynligt, at den gør det konsekvent.
Kan vi rette det inden for samtalen? Forskningen siger “Sandsynligvis ikke.”
- Graden af opdeling: Forskerne testede, om graden af opdeling af information betød noget. De fandt, at “enhver samtale, der involverer opdeling og forekommer i to eller flere runder, fører til, at modeller farer vild i samtale.” Den eneste virkelig effektive metode til at opretholde pålidelighed? “At give al information på én gang.”
- Støttehjul: Hvad nu hvis en automatiseret proces kunne køre ved siden af chatte, mindede LLM’en om tidligere information i samtalen? Disse strategier viste “en vis grad af succes”, men resultaterne halter stadig bagefter. Desuden er disse ofte besværlige og urealistiske for typiske brugerinteraktioner.
- Indstillinger af tekniske parametre: LLM’er er komplekse størrelser. Det ser man ikke som almindelig bruger, men der er en lang række ”håndtag” inde bagved. Forskerne forsøgte også, uden held, med forskellige justeringer, men resultaterne udeblev.
Mestring af den enkelte prompt: Vejen til bedre AI-resultater
Indsigterne fra denne forskning er en opfordring til ændring af vores adfærd i interaktionen med LLM’er. Hvis du vil udnytte LLM’ernes fulde potentiale og undgå at ende som Hans og Grethe, er den eneste effektive tilgang til komplekse eller kritiske opgaver, at bevæge sig væk fra den afslappede, chat-lignende interaktion, med bestemte undtagelser som vi her ved Innovation Lab har fundet gennem vores forskning. [3]
I stedet bør fokus flyttes til at mestre kunsten at lave en “one-shot” prompt. Dette indebærer:
- Give en utvetydig og fuldendt instruktion.
- At give al nødvendig information som kræves for at løse opgaven.
- Organiserer informationen og instruktionen på en logisk måde, som LLM’en nemt kan forstå.
Ved at give LLM’en alt, hvad den har brug for i en enkelt, velskrevet instruktion, minimerer du chancerne for, at den laver forkerte antagelser, afspores, eller glemmer vigtige informationer undervejs. Du guider den i virkeligheden direkte til det ønskede resultat uden de omveje og blindgyder, som samtalerne introducerer.
Tag et endagskursus og lær hvordan du prompter rigtigt.
Innovation Lab indledte sit dybdegående arbejde med kunstig intelligens (AI) i 2017. Gennem de seneste to et halvt år har virksomheden været Dansk Industris faste leverandør af AI-kurser. Disse kurser fokuserer specifikt på professionelle prompts: Entydige instruktioner, der er designet til at levere det ønskede, faktuelle resultat i første forsøg. Outputtet er desuden konsekvent formateret hver gang og baserer sig ikke på gæt, men på præcis og velformuleret input.
Over 2.000 personer har gennemført vores endags-program. Dette program starter med en grundlæggende introduktion og kulminerer om eftermiddagen med udarbejdelsen af avancerede prompts, der typisk er mellem 1.500 og 3.000 tegn lange. Vi afholder kurser ude i virksomheder hvor alle ansatte skal trænes i brugen af LLM’er, for organisationer som DI, og i eget regí, på vores egne populære, åbne endags-kurser.
Vi har en dokumenteret score på 4,7 ud af 5 stjerner fra vores mange kursister.
Vores anerkendte promptstruktur, har fra starten været funderet i videnskabelige forskningsresultater, både fra vores egne laboratorieeksperimenter og publikationer fra hele verden.
Hvis du vil øge din værdiskabelse med 39% så begynd at lave bedre, længere og mere strukturerede prompts men ikke vil bruge tiden på research, og bare gerne vil have viden om hvordan, man prompter korrekt, så kan du tilmelde dig vores kurser hos Dansk Industri eller vores åbne kurser i efteråret.
Det er en investering i din fremtid. Book en tid på næste ledige kursus og forbered dig på, at blive fyldt til randen med viden, som du kan bruge dagen efter, ved dit skrivebord. Det fremmer din karriere hos din nuværende arbejdsgiver, og er en værdifuld kompetence at skrive på dit CV.
[1] Large Language Model : https://en.wikipedia.org/wiki/Large_language_model
[2] “LLMs Get Lost in Multi-Turn Conversation”: https://arxiv.org/pdf/2505.06120
Questions.”: https://arxiv.org/pdf/2311.05232
[3] Samtaleprompts: Man kan skrive prompts specifikt til samtaler. I disse tilfælde skal samtalen handle om én specifik ting, og når samtalen om emnet er slut skal du ikke bruge den samme chat igen. Start en ny chat og indsæt din samtaleprompt påny. Det kan være så simpelt, at du i prompten skriver “Jeg vil gerne have en samtale om historiske porche-bilmodeller. Brug internetsøgninger som kilde til information.” Her er opgaven i sig selv, samtalen. Deltag i kurset og få en meget detaljeret samtaleprompt med hjem.