Månedlig rapport Publisert 31. mai 2026

AI på skandinavisk
— Mai 2026

Vi evaluerer over 350 AI-modeller og presenterer de beste på norsk, dansk og svensk. 30 dager med benchmark-data. Uavhengig og uten kommersielle bindinger.

Månedens hovedfunn

Meta: Llama 3.1 8B Instruct vant 7 av 30 dager på daglig norsk-benchmark — en budsjettmodell til 0.19 NOK/M tokens.
Budsjettmodeller slo premium-modeller 18 av 30 dager — de tre billigste modellene koster opptil 3 000× mindre enn de dyreste.
OpenAI: o3 Pro overrasker som dybdetest-vinner på norsk med score 8.7/10 — langt bedre på komplekse oppgaver enn i daglig benchmark.
Meta: Llama 3.2 1B Instruct er mest konsistent — scorer mellom 6.9 og 7.4 over hele perioden (standardavvik: 0.2).
AionLabs: Aion-1.0 forstår ikke norsk — scoret 0/5 på norsk i 9 av testdager.

Daglig rangering — hvem vant måneden?

Gjennomsnittlig hvilkenAI-score over alle dager modellen deltok (2026-05-19 – 2026-06-17).

# Modell Snitt score Snitt norsk Dager vunnet Pris NOK/M Tier
1 IBM: Granite 4.1 8B 8.47 3.56/5 5/9 0.4755 Budsjett
2 Mistral: Mistral Small 3 8.27 3.67/5 1/3 0.4745 Budsjett
3 OpenAI: GPT-5.3-Codex 8.17 3/5 0/3 16.66 Mellomklasse
4 Mistral Large 2407 8.13 3.58/5 2/12 18.98 Mellomklasse
5 Sao10K: Llama 3.1 70B Hanami x1 8.08 3.31/5 3/13 28.56 Premium
6 Cohere: Command R+ (08-2024) 8.02 4/5 0/9 23.77 Premium
7 Meta: Llama 3.1 8B Instruct 7.76 3.59/5 7/22 0.1898 Budsjett
8 IBM: Granite 4.0 Micro 7.74 3/5 1/13 0.1882 Budsjett
9 Google: Gemma 3 4B 7.71 3.57/5 1/7 0.4745 Budsjett
10 OpenAI: o3 Pro 7.63 2.67/5 1/3 188.40 Premium
11 Cohere: Command A 7.6 3.71/5 1/7 23.73 Premium
12 OpenAI: gpt-oss-120b 7.57 3.33/5 1/3 0.3732 Budsjett
13 Cohere: Command R7B (12-2024) 7.48 3.69/5 0/13 0.3796 Budsjett
14 Mistral: Mixtral 8x22B Instruct 7.43 2.67/5 0/3 18.84 Mellomklasse
15 Anthropic: Claude Haiku 4.5 7.4 3.69/5 0/13 9.49 Mellomklasse
16 OpenAI: GPT-4.1 7.38 3/5 0/6 18.50 Mellomklasse
17 Magnum v4 72B 7.23 3/5 1/3 28.53 Premium
18 Anthropic: Claude Opus 4.7 (Fast) 7.21 3.58/5 2/12 277.50 Premium
19 Meta: Llama 3.2 1B Instruct 7.2 3/5 0/5 0.2841 Budsjett
20 OpenAI: GPT-5.3 Chat 7.15 3/5 0/4 16.61 Mellomklasse
21 OpenAI: GPT-5.4 Pro 7.1 2/5 0/3 277.80 Premium
22 Anthropic: Claude Sonnet 4.6 7.05 3.5/5 0/6 28.47 Premium
23 AI21: Jamba Large 1.7 7 3/5 0/12 18.50 Mellomklasse
24 Anthropic: Claude Opus 4.8 (Fast) 6.98 3.2/5 0/5 94.70 Premium
25 Mistral: Mistral Nemo 6.93 3/5 0/15 0.1882 Budsjett
26 Perplexity: Sonar Pro Search 6.89 3.7/5 0/23 28.47 Premium
27 Anthropic: Claude Opus 4.8 6.7 3/5 0/3 46.65 Premium
28 Perplexity: Sonar Pro 6.56 3.2/5 0/5 28.41 Premium
29 Google: Gemma 3 12B 6.37 2.67/5 0/3 0.3768 Budsjett
30 inclusionAI: Ling-2.6-flash 6.31 2.75/5 2/12 0.0925 Budsjett
31 OpenAI: GPT-5.5 Pro 5.9 2.25/5 0/12 284.10 Premium
32 OpenAI: o3 5.74 1.91/5 0/11 18.94 Mellomklasse
33 Perplexity: Sonar Reasoning Pro 4.91 2.29/5 0/14 18.84 Mellomklasse
34 OpenAI: gpt-oss-20b 4.74 1.2/5 0/5 0.2841 Budsjett
35 Google: Gemini 3.1 Pro Preview 4.41 3.27/5 0/22 18.98 Mellomklasse
36 AionLabs: Aion-1.0 2.62 0/5 0/9 37.24 Premium
37 Google: Nano Banana Pro (Gemini 3 Pro Image Preview) 0.2 0/5 0/5 18.94 Mellomklasse
Beste verdi for pengene: inclusionAI: Ling-2.6-flash scorer 6.31/10 til bare 0.0925 NOK/M tokens — 88% av Claude Opus-kvaliteten til under 1% av prisen.

Deep-test — under overflaten

Dybdetesten dekker lengre tekster, fagspråk, tone og register, dialekter og oversettelse. Testet 2026-06-13.

Norsk deep-test (topp 5)

# Modell Deep-score Daglig snitt Avvik
1 OpenAI: o3 Pro 8.7/10 7.63/10 +1.07
2 Perplexity: Sonar Pro 8.6/10 6.56/10 +2.04
3 Mistral: Mixtral 8x22B Instruct 7.7/10 7.43/10 +0.27
4 OpenAI: o3 7/10 5.74/10 +1.26
5 Cohere: Command A 5.5/10 7.6/10 -2.1
IBM: Granite 4.1 8B vinner daglig-benchmarken, men OpenAI: o3 Pro vinner på dybde med 8.7/10. Det betyr at IBM: Granite 4.1 8B er best for raske oppgaver, mens OpenAI: o3 Pro leverer bedre kvalitet på komplekse tekster.

Svensk deep-test (topp 5)

# Modell Deep-score Daglig snitt Avvik
1 Mistral: Mixtral 8x22B Instruct 9.1/10 7.43/10 +1.67
2 Perplexity: Sonar Pro 8.8/10 6.56/10 +2.24
3 OpenAI: GPT-5.5 Pro 8.2/10 5.9/10 +2.3
4 OpenAI: o3 7.2/10 5.74/10 +1.46
5 Cohere: Command A 7.1/10 7.6/10 -0.5

Dansk deep-test (topp 5)

# Modell Deep-score Daglig snitt Avvik
1 Perplexity: Sonar Pro Search 9/10 6.89/10 +2.11
2 Mistral Large 2407 8.6/10 8.13/10 +0.47
3 Perplexity: Sonar 7.9/10 6.4/10 +1.5
4 OpenAI: o3 7.6/10 5.74/10 +1.86
5 Mistral: Mistral Nemo 6.2/10 6.93/10 -0.73

Her vises kun topp 5 modeller per språk. Full rapport fra over 350 evaluerte modeller er tilgjengelig ved forespørsel. Kontakt oss

Trender gjennom måneden

Ukentlige gjennomsnitt for modeller med data i minst 3 av 4 uker.

Modell 7–11.mai12–18.mai19–25.mai26–29.mai
Sao10K: Llama 3.1 70B Hanami x1 8.3 7.7 7.7 8.2
Meta: Llama 3.1 8B Instruct 7.4 7.8 8.0 7.8
IBM: Granite 4.0 Micro 7.4 7.6 8.0
Google: Gemma 3 4B 8.2 8.1 5.0
Cohere: Command A 7.6 7.4 8.0
Cohere: Command A har forbedret seg med 0.6 poeng fra uke 2 til uke 4
Google: Gemma 3 4B har falt 3.1 poeng fra uke 2 til uke 4

Pris vs. kvalitet

Beste verdi: hvilkenAI-score delt på pris per million tokens. Kun modeller med score ≥ 5.

# Modell Score Pris NOK/M Verdi-indeks
1 inclusionAI: Ling-2.6-flash 6.31 0.0925 68.2
2 IBM: Granite 4.0 Micro 7.74 0.1882 41.1
3 Meta: Llama 3.1 8B Instruct 7.76 0.1898 40.9
4 Mistral: Mistral Nemo 6.93 0.1882 36.8
5 Meta: Llama 3.2 1B Instruct 7.2 0.2841 25.3
Den billigste modellen med score over 7 er IBM: Granite 4.0 Micro til 0.1882 NOK/M tokens — det er under 0,1 % av prisen til OpenAI: GPT-5.5 Pro med 131 % av kvaliteten.

Anbefalinger

For daglig bruk

inclusionAI: Ling-2.6-flash

Beste verdi for hverdagsoppgaver — score 6.31/10

For viktige dokumenter

OpenAI: o3 Pro

Beste kvalitet på norsk — deep-test score 8.7/10

For utviklere og API

Meta: Llama 3.2 3B Instruct

397 tok/sek med score 8.2/10

For budsjett

IBM: Granite 4.1 8B

Score 8.47/10 til 0.4755 NOK/M tokens

Per språk — hvem bør du velge?

  • Norsk: OpenAI: o3 Pro (deep-score 8.7/10)
  • Svensk: Mistral: Mixtral 8x22B Instruct (deep-score 9.1/10)
  • Dansk: Perplexity: Sonar Pro Search (deep-score 9/10)

Denne rapporten er basert på 30 dager med daglig benchmark og ukentlig dybdetest, utført av hvilkenAI (2026-05-19 – 2026-06-17). Vi har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskap med AI-leverandørene vi evaluerer.

Full rapport fra over 350 evaluerte modeller og rådataeksport: Kontakt oss

Metodikk · Daglige resultater · Neste rapport: AI på skandinavisk — Juni 2026 (publiseres 30. juni)

← Alle rapporter