Sist oppdatert: 2026-06-17

AI-benchmark på norsk: dagens beste modeller

Testet og rangert hver morgen — norsk språkkvalitet, hastighet og verdi.

Les ukesrapporter → Sammenlign modeller → ChatGPT vs Claude → Gemini vs ChatGPT →

Beste i sin klasse

🏆
Høyest score
Mistral: Mistral Small 3
9.0/10
🇳🇴
Best på norsk
Mistral: Mistral Small 3
8.0/10
Raskest
Mistral: Mistral Small 3
286 t/s
💰
Billigst (score ≥ 3)
Meta: Llama 3.1 8B Instruct
$0.02/1M
📊
Beste verdi
Meta: Llama 3.1 8B Instruct
Verdi 266.7
🔗
Beste orkestrator
Perplexity: Sonar Pro Search
Orch 8.0/10

Er premium verdt det?

Premium norsk-score
3.5/5
Mid-range norsk-score
3.5/5
Prisforskjell
~2×

For norsk tekst og enkle oppgaver holder mid-range svært godt. Premium lønner seg ved kompleks reasoning, lange dokumenter og når presisjon er kritisk.

Alle resultater

# Modell Tier t/s TTFT Norsk Instr Score Orch. Verdi EU Pris/1M
1
Mistral: Mistral Small 3
mistralai
Budsjett 286 70 ms 8.0 10.0 9.0 8.0 150.0 🇪🇺 EU $0.05
≈0 kr
2
Google: Gemma 3 4B
google
Budsjett 206 89 ms 8.0 10.0 8.5 8.0 150.0 ~EU $0.05
≈0 kr
3
Mistral Large 2407
mistralai
Stabil
Mid-range 186 95 ms 8.0 10.0 8.2 8.0 4.5 🇪🇺 EU $2.00
≈19 kr
4
Anthropic: Claude Sonnet 4.6
anthropic
Stabil
Premium 100 152 ms 8.0 10.0 7.5 8.0 3.0 🇪🇺 EU $3.00
≈28 kr
5
Perplexity: Sonar Pro Search
perplexity
Stabil
Premium 48 307 ms 8.0 10.0 7.2 8.0 3.0 ~EU $3.00
≈28 kr
6
Cohere: Command R7B (12-2024)
cohere
Stabil
Budsjett 153 108 ms 8.0 8.0 7.1 6.4 160.0 $0.04
≈0 kr
7
Google: Gemini 3.1 Pro Preview
google
Stabil
Mid-range 68 157 ms 8.0 4.0 5.0 3.2 3.0 ~EU $2.00
≈19 kr
8
Meta: Llama 3.1 8B Instruct
meta-llama
Budsjett 250 64 ms 6.0 10.0 8.1 6.0 266.7 $0.02
≈0 kr
9
OpenAI: GPT-5.5
openai
Premium 223 75 ms 6.0 10.0 7.9 6.0 1.6 $5.00
≈47 kr
10
OpenAI: GPT-5.4 Mini
openai
Mid-range 153 87 ms 6.0 10.0 7.1 6.0 10.5 $0.75
≈7 kr
11
Anthropic: Claude Haiku 4.5
anthropic
Stabil
Mid-range 115 120 ms 6.0 10.0 6.9 6.0 7.9 🇪🇺 EU $1.00
≈9 kr
12
Cohere: Command A
cohere
Premium 187 73 ms 6.0 8.0 6.8 4.8 2.8 $2.50
≈24 kr

Responstid siste 14 dager

Slik tester vi

Vi evaluerer over 350 AI-modeller og presenterer de beste resultatene hver morgen. Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Les mer om metodikken →

Vanlige spørsmål

Modellene velges automatisk fra OpenRouter sin modellkatalog basert på pris. Vi deler inn i tre prisgrupper: Premium (>$2/M tokens), Mid-range ($0.10–$2/M) og Budsjett (<$0.10/M). Fra hver gruppe velges maks 4 modeller med én per leverandør. Dette sikrer bred dekning av markedet uten å hardkode modellnavn.

Norsk-scoren viser andelen av oppgavene modellen svarte på norsk bokmål. Vi bruker franc-min (n-gram språkdeteksjon) for lengre svar og stopword-analyse for korte svar. Scoren vises som x/5 (normalisert).

Instruksjonscoren viser andelen av oppgavene der modellen fulgte instruksjonen korrekt. For eksempel: svarte med riktig antall setninger, inneholdt korrekte fakta, eller fulgte spesifikke formatkrav. En score på 5/5 betyr perfekt instruksjonsfølging (normalisert til 5-skala).

Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Verdiscoren viser hvilke modeller som gir sterke resultater i forhold til pris. Den nøyaktige beregningen er proprietær.