Månedlig rapport Publisert 31. mai 2026

AI på skandinavisk
— Mai 2026

Vi evaluerer over 350 AI-modeller og presenterer de beste på norsk, dansk og svensk. 30 dager med benchmark-data. Uavhengig og uten kommersielle bindinger.

Månedens hovedfunn

Meta: Llama 3.1 8B Instruct vant 7 av 30 dager på daglig norsk-benchmark — en budsjettmodell til 0.19 NOK/M tokens.

Budsjettmodeller slo premium-modeller 18 av 30 dager — de tre billigste modellene koster opptil 3 000× mindre enn de dyreste.

OpenAI: o3 Pro overrasker som dybdetest-vinner på norsk med score 8.7/10 — langt bedre på komplekse oppgaver enn i daglig benchmark.

Meta: Llama 3.2 1B Instruct er mest konsistent — scorer mellom 6.9 og 7.4 over hele perioden (standardavvik: 0.2).

AionLabs: Aion-1.0 forstår ikke norsk — scoret 0/5 på norsk i 9 av testdager.

Daglig rangering — hvem vant måneden?

Gjennomsnittlig hvilkenAI-score over alle dager modellen deltok (2026-05-19 – 2026-06-17).

#	Modell	Snitt score	Snitt norsk	Dager vunnet	Pris NOK/M	Tier
1	IBM: Granite 4.1 8B	8.47	3.56/5	5/9	0.4755	Budsjett
2	Mistral: Mistral Small 3	8.27	3.67/5	1/3	0.4745	Budsjett
3	OpenAI: GPT-5.3-Codex	8.17	3/5	0/3	16.66	Mellomklasse
4	Mistral Large 2407	8.13	3.58/5	2/12	18.98	Mellomklasse
5	Sao10K: Llama 3.1 70B Hanami x1	8.08	3.31/5	3/13	28.56	Premium
6	Cohere: Command R+ (08-2024)	8.02	4/5	0/9	23.77	Premium
7	Meta: Llama 3.1 8B Instruct	7.76	3.59/5	7/22	0.1898	Budsjett
8	IBM: Granite 4.0 Micro	7.74	3/5	1/13	0.1882	Budsjett
9	Google: Gemma 3 4B	7.71	3.57/5	1/7	0.4745	Budsjett
10	OpenAI: o3 Pro	7.63	2.67/5	1/3	188.40	Premium
11	Cohere: Command A	7.6	3.71/5	1/7	23.73	Premium
12	OpenAI: gpt-oss-120b	7.57	3.33/5	1/3	0.3732	Budsjett
13	Cohere: Command R7B (12-2024)	7.48	3.69/5	0/13	0.3796	Budsjett
14	Mistral: Mixtral 8x22B Instruct	7.43	2.67/5	0/3	18.84	Mellomklasse
15	Anthropic: Claude Haiku 4.5	7.4	3.69/5	0/13	9.49	Mellomklasse
16	OpenAI: GPT-4.1	7.38	3/5	0/6	18.50	Mellomklasse
17	Magnum v4 72B	7.23	3/5	1/3	28.53	Premium
18	Anthropic: Claude Opus 4.7 (Fast)	7.21	3.58/5	2/12	277.50	Premium
19	Meta: Llama 3.2 1B Instruct	7.2	3/5	0/5	0.2841	Budsjett
20	OpenAI: GPT-5.3 Chat	7.15	3/5	0/4	16.61	Mellomklasse
21	OpenAI: GPT-5.4 Pro	7.1	2/5	0/3	277.80	Premium
22	Anthropic: Claude Sonnet 4.6	7.05	3.5/5	0/6	28.47	Premium
23	AI21: Jamba Large 1.7	7	3/5	0/12	18.50	Mellomklasse
24	Anthropic: Claude Opus 4.8 (Fast)	6.98	3.2/5	0/5	94.70	Premium
25	Mistral: Mistral Nemo	6.93	3/5	0/15	0.1882	Budsjett
26	Perplexity: Sonar Pro Search	6.89	3.7/5	0/23	28.47	Premium
27	Anthropic: Claude Opus 4.8	6.7	3/5	0/3	46.65	Premium
28	Perplexity: Sonar Pro	6.56	3.2/5	0/5	28.41	Premium
29	Google: Gemma 3 12B	6.37	2.67/5	0/3	0.3768	Budsjett
30	inclusionAI: Ling-2.6-flash	6.31	2.75/5	2/12	0.0925	Budsjett
31	OpenAI: GPT-5.5 Pro	5.9	2.25/5	0/12	284.10	Premium
32	OpenAI: o3	5.74	1.91/5	0/11	18.94	Mellomklasse
33	Perplexity: Sonar Reasoning Pro	4.91	2.29/5	0/14	18.84	Mellomklasse
34	OpenAI: gpt-oss-20b	4.74	1.2/5	0/5	0.2841	Budsjett
35	Google: Gemini 3.1 Pro Preview	4.41	3.27/5	0/22	18.98	Mellomklasse
36	AionLabs: Aion-1.0	2.62	0/5	0/9	37.24	Premium
37	Google: Nano Banana Pro (Gemini 3 Pro Image Preview)	0.2	0/5	0/5	18.94	Mellomklasse

Beste verdi for pengene: inclusionAI: Ling-2.6-flash scorer 6.31/10 til bare 0.0925 NOK/M tokens — 88% av Claude Opus-kvaliteten til under 1% av prisen.

Deep-test — under overflaten

Dybdetesten dekker lengre tekster, fagspråk, tone og register, dialekter og oversettelse. Testet 2026-06-13.

Norsk deep-test (topp 5)

#	Modell	Deep-score	Daglig snitt	Avvik
1	OpenAI: o3 Pro	8.7/10	7.63/10	+1.07
2	Perplexity: Sonar Pro	8.6/10	6.56/10	+2.04
3	Mistral: Mixtral 8x22B Instruct	7.7/10	7.43/10	+0.27
4	OpenAI: o3	7/10	5.74/10	+1.26
5	Cohere: Command A	5.5/10	7.6/10	-2.1

IBM: Granite 4.1 8B vinner daglig-benchmarken, men OpenAI: o3 Pro vinner på dybde med 8.7/10. Det betyr at IBM: Granite 4.1 8B er best for raske oppgaver, mens OpenAI: o3 Pro leverer bedre kvalitet på komplekse tekster.

Svensk deep-test (topp 5)

#	Modell	Deep-score	Daglig snitt	Avvik
1	Mistral: Mixtral 8x22B Instruct	9.1/10	7.43/10	+1.67
2	Perplexity: Sonar Pro	8.8/10	6.56/10	+2.24
3	OpenAI: GPT-5.5 Pro	8.2/10	5.9/10	+2.3
4	OpenAI: o3	7.2/10	5.74/10	+1.46
5	Cohere: Command A	7.1/10	7.6/10	-0.5

Dansk deep-test (topp 5)

#	Modell	Deep-score	Daglig snitt	Avvik
1	Perplexity: Sonar Pro Search	9/10	6.89/10	+2.11
2	Mistral Large 2407	8.6/10	8.13/10	+0.47
3	Perplexity: Sonar	7.9/10	6.4/10	+1.5
4	OpenAI: o3	7.6/10	5.74/10	+1.86
5	Mistral: Mistral Nemo	6.2/10	6.93/10	-0.73

Her vises kun topp 5 modeller per språk. Full rapport fra over 350 evaluerte modeller er tilgjengelig ved forespørsel. Kontakt oss

Trender gjennom måneden

Ukentlige gjennomsnitt for modeller med data i minst 3 av 4 uker.

Modell	7–11.mai	12–18.mai	19–25.mai	26–29.mai
Sao10K: Llama 3.1 70B Hanami x1	8.3	7.7	7.7	8.2
Meta: Llama 3.1 8B Instruct	7.4	7.8	8.0	7.8
IBM: Granite 4.0 Micro	7.4	—	7.6	8.0
Google: Gemma 3 4B	8.2	8.1	—	5.0
Cohere: Command A	7.6	7.4	—	8.0

Cohere: Command A har forbedret seg med 0.6 poeng fra uke 2 til uke 4

Google: Gemma 3 4B har falt 3.1 poeng fra uke 2 til uke 4

Pris vs. kvalitet

Beste verdi: hvilkenAI-score delt på pris per million tokens. Kun modeller med score ≥ 5.

#	Modell	Score	Pris NOK/M	Verdi-indeks
1	inclusionAI: Ling-2.6-flash	6.31	0.0925	68.2
2	IBM: Granite 4.0 Micro	7.74	0.1882	41.1
3	Meta: Llama 3.1 8B Instruct	7.76	0.1898	40.9
4	Mistral: Mistral Nemo	6.93	0.1882	36.8
5	Meta: Llama 3.2 1B Instruct	7.2	0.2841	25.3

Den billigste modellen med score over 7 er IBM: Granite 4.0 Micro til 0.1882 NOK/M tokens — det er under 0,1 % av prisen til OpenAI: GPT-5.5 Pro med 131 % av kvaliteten.

Anbefalinger

For daglig bruk

inclusionAI: Ling-2.6-flash

Beste verdi for hverdagsoppgaver — score 6.31/10

For viktige dokumenter

OpenAI: o3 Pro

Beste kvalitet på norsk — deep-test score 8.7/10

For utviklere og API

Meta: Llama 3.2 3B Instruct

397 tok/sek med score 8.2/10

For budsjett

IBM: Granite 4.1 8B

Score 8.47/10 til 0.4755 NOK/M tokens

Per språk — hvem bør du velge?

Norsk: OpenAI: o3 Pro (deep-score 8.7/10)
Svensk: Mistral: Mixtral 8x22B Instruct (deep-score 9.1/10)
Dansk: Perplexity: Sonar Pro Search (deep-score 9/10)

Denne rapporten er basert på 30 dager med daglig benchmark og ukentlig dybdetest, utført av hvilkenAI (2026-05-19 – 2026-06-17). Vi har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskap med AI-leverandørene vi evaluerer.

Full rapport fra over 350 evaluerte modeller og rådataeksport: Kontakt oss

Metodikk · Daglige resultater · Neste rapport: AI på skandinavisk — Juni 2026 (publiseres 30. juni)

← Alle rapporter

AI på skandinavisk— Mai 2026