Är du bättre än Chat GPT-4 på högskoleprovet?

Morgan

Industriell ekonomi - LiU

10 min. läsning

2 years ago

Är du bättre än Chat GPT-4 på högskoleprovet?

Mars 2024 bestämde vi oss för att undersöka hur Chat GPT-4 presterar på högskoleprovet. Med nya förbättringar som förmågan att analysera bilder och använda sig av programmering för att lösa matematiska uppgifter var förväntningarna höga. Förväntningarna vi hade var Chat GPT-4 skulle prestera bra på den verbala delen då Chat GPT-4 är en Large Language Model (LLM) vilket innebär att analysera och generera text är det huvudsakliga expertis och mål. Den kvantitativa delen, å andra sidan, innehåller matematiska frågor, tabeller och bilder, vilket vi antog var Chat GPT-4 svaghet men det visade sig att den presterade långt över genomsnittet på den kvantitativa delen också.

Chat GPT gör högskoleprovet

Verbala delen

På den verbala delen av högskoleprovet under höstterminen presterade Chat GPT-4 exceptionellt bra genom att korrekt besvara 75 av 80 frågor, vilket enligt normeringstabellen motsvarar ett resultat på 2.0. Endast 1.1% av deltagarna som skrev det provet den terminen uppnådde detta resultat. Gränsen för att uppnå 2.0 var 73 rätta svar, en siffra som GPT överträffade med god marginal.

Detta resultat var överraskande för oss, eftersom det var just den engelska delen som visade sig vara mest utmanande för GPT.

Förvånande nog var GPT:s svagaste prestation i delen för engelsk läsförståelse (ELF), trots att den är "tränad" på offentligt tillgänglig information på internet, där engelskspråkigt material dominerar. Detta resultat var överraskande för oss, eftersom det var just den engelska delen som visade sig vara mest utmanande för GPT. Resultatfördelningen mellan de olika delarna var som följer:

Ordförståelse (ORD): 20/20
Läsförståelse, (LÄS): 19/20
Meningskomplettering, (MEK): 19/20
Engelsk läsförståelse, (ELF): 17/20

En uppgift som GPT hade fel på var en MEK-fråga från provpass 5, verbal del, hösttermin 2011 uppgift 24. GPT svarade alternativ B men rätt svar ska vara C, insatser - riktat.

CHat gpt fel verbal del högskoleprovet

Kvantitativa delen

På den kvantitativa delen uppnådde Chat GPT-4 54 av 80 rätta svar, vilket enligt normeringstabellen motsvarar ett resultat på 1.5. Detta innebär att GPT presterade bättre än 85% av deltagarna på den kvantitativa delen av högskoleprovet höstterminen 2011. Denna del inkluderar diagram, tabeller och kartor, vilket utgör en utmaning för Chat GPT-4, eftersom GPT primärt är utvecklad för att analysera text och har svårigheter med att tolka bilder. Det blev särskilt tydligt när vi testade att skicka in en tabell först som en bild och sedan som text. GPT kunde med lätthet tolka tabellen i textformat, men hade svårigheter med bildversionen.

GPT presterade bättre än 85% av deltagarna på den kvantitativa delen av högskoleprovet höstterminen 2011

Svårigheten med att tolka bilder reflekterades i resultatet för de olika delarna, där den sämsta prestationen observerades på delen Diagram, Tabeller och Kartor (DTK). Fördelningen av korrekta svar över de olika delarna presenteras här:

Matematisk problemlösning, (XYZ): 19/24
Kvantitativa jämförelser, (KVA): 16/20
Kvantitativa resonemang, (NOG): 7/12
Diagram, Tabeller och Kartor, (DTK): 12/24

En uppgift som den hade fel på var en NOG-fråga från provpass 2, kvantitativ del, höstterminen 2011 uppgift 23. GPT svarade alternativ C men rätt svar ska vara D, i (1) och (2) var för sig.

Chat gpt fel kvantitativa delen

Slutsats

Baserat på prestationerna i både de verbala och kvantitativa delarna framgår det att det är den kvantitativa delen som drar ned det totala resultatet för Chat GPT-4. Specifikt utgör NOG och DTK de största utmaningarna inom den kvantitativa sektionen. NOG-delen, som kräver tolkning av text för att formulera ekvationer, representerar en betydande utmaning, likaså för människor, vilket speglas i dess svårighetsgrad även enligt vår användardata.

DTK-delen, som i huvudsak handlar om tolkning av bilder som diagram och kartor, påverkar också resultatet negativt, där GPT sannolikt behövt gissa på uppgifter som den inte kan hittar någon lösning. En omvandling av diagram och kartor till textformat, liknande hanteringen av tabeller, skulle troligen förbättra GPT:s resultat på DTK avsevärt.

Detta resultat skulle kvalificera för antagning till nästan alla högre utbildningsprogram i landet

Trots utmaningarna med den kvantitativa delen är ett totalresultat på 1.75, uppdelat på 2.0 i verbal del och 1.5 i kvantitativ del, anmärkningsvärt. Detta resultat skulle kvalificera för antagning till nästan alla högre utbildningsprogram i landet, inklusive läkarprogrammet vid Karolinska Institutet, där det senaste antagningskravet låg på 1.65.

Med ett resultat på 1.75 fanns det bara en fråga kvar att fråga, vilken utbildning hade Chat GPT-4 valt att studera?

Vad hade chat-gpt studerat

Frågan är om nästa generation av Chat GPT eller Googles Gemini kommer skriva 2.0. Enligt oss på HP Kungen handlar det mer om när än om.