[Intum Dev](https://intum.dev.md) / [Modele AI](https://intum.dev/modele-ai.md)

# [Claude Sonnet 4.6 z 1M kontekstu — cennik, porównanie modeli i praktyczne wnioski](https://intum.dev/modele-ai/claude-sonnet-4-6-z-1m-kontekstu-cennik-porownanie-modeli-i-praktyczne-wnioski.md)

## Co się zmieniło

Claude Sonnet 4.6 i Opus 4.6 obsługują natywnie **1 milion tokenów kontekstu** — bez dodatkowych headerów czy flag beta. To około 750 tysięcy słów, czyli mniej więcej 10-15 średniej wielkości książek w jednym zapytaniu. Limit mediów wzrósł do 600 zdjęć/stron PDF.

Poprzednie modele Sonnet (4.5 i 4) też mogły obsłużyć 1M tokenów, ale wymagały specjalnego nagłówka beta. Teraz to standard — i co ważne, **nie ma dodatkowej premii cenowej za długi kontekst**.

## Cennik aktualnych modeli Claude

Za 1M tokenów:

| Model | Input | Output | Kontekst | Max output | Opis |
|---|---|---|---|---|---|
| **Opus 4.6** | $5 | $25 | 1M | 128k | Najmocniejszy — agenty, coding, złożone rozumowanie |
| **Sonnet 4.6** | $3 | $15 | 1M | 64k | Najlepszy balans szybkości i inteligencji |
| **Haiku 4.5** | $1 | $5 | 200k | 64k | Najszybszy, do prostszych zadań |

### Porównanie z poprzednimi generacjami Claude

| Model | Input | Output | Kontekst | Status |
|---|---|---|---|---|
| **Sonnet 4.6** | $3 | $15 | 1M (natywnie) | aktualny |
| **Opus 4.6** | $5 | $25 | 1M (natywnie) | aktualny |
| **Sonnet 4.5** | $3 | $15 | 1M (beta header) | legacy |
| **Opus 4.5** | $5 | $25 | 200k | legacy |
| **Opus 4.1** | $15 | $75 | 200k | legacy |

Trend jest wyraźny — nowe modele są tańsze i mają większy kontekst. Opus 4.1 kosztował $15/$75 przy 200k. Sonnet 4.6 daje 1M za $3/$15.

## Opus 4.6 vs Sonnet 4.6

| Cecha | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| **Cena input/output** | $5 / $25 | $3 / $15 |
| **Max output** | 128k tokenów | 64k tokenów |
| **Szybkość** | Umiarkowana | Szybki |
| **Extended thinking** | Tak | Tak |
| **Adaptive thinking** | Tak | Tak |
| **Kontekst** | 1M | 1M |
| **Knowledge cutoff** | Maj 2025 | Sierpień 2025 |
| **Training data cutoff** | Sierpień 2025 | Styczeń 2026 |

**Kiedy Opus:** najtrudniejsze zadania kodowania, złożone agenty wieloetapowe, głębokie rozumowanie, sytuacje gdzie jakość jest ważniejsza niż koszt. Opus lepiej radzi sobie ze skomplikowanymi zmianami architektonicznymi i utrzymuje koherencję w długich sesjach.

**Kiedy Sonnet:** codzienna praca, analiza dokumentów, code review, generowanie kodu, przetwarzanie danych. Pokrywa 80-90% zastosowań przy niższym koszcie i szybszym czasie odpowiedzi. Ma też nowszy knowledge cutoff.

Ciekawe jest to, że Sonnet 4.6 ma **nowsze dane treningowe** (styczeń 2026) niż Opus 4.6 (sierpień 2025) — co oznacza, że w kwestiach wymagających aktualnej wiedzy Sonnet może być lepszym wyborem.

## Porównanie z konkurencją — modele z dużym kontekstem

Rynek modeli z kontekstem 1M+ tokenów jest już spory. Poniżej porównanie najważniejszych graczy:

### Modele komercyjne (API)

| Model | Firma | Input | Output | Kontekst | Jakość* | Uwagi |
|---|---|---|---|---|---|---|
| **Claude Opus 4.6** | Anthropic | $5 | $25 | 1M | 53 | Najmocniejszy w kodowaniu i agentach |
| **Claude Sonnet 4.6** | Anthropic | $3 | $15 | 1M | 52 | Świetny balans ceny i jakości |
| **GPT-5.4** | OpenAI | $2.50 | $15 | 1M | 57 | Tańszy input, drożej >272k tokenów ($5/MTok) |
| **GPT-5.2** | OpenAI | $1.75 | $14 | 1M | 54 | Poprzednia generacja, nadal mocna |
| **Gemini 2.5 Pro** | Google | $1.25 | $10 | 1M | 52 | Najtańszy z topowych, drożej >200k ($2.50/$15) |
| **Gemini 3.1 Pro** | Google | $2 | $12 | 1M | 57 | Najnowszy Google, top wyniki |
| **Grok 4** | xAI | $3 | $15 | 256k | — | Reasoning model, mniejszy kontekst |
| **Grok 4.1 Fast** | xAI | $0.20 | $0.50 | 2M | — | Ekstremalnie tani, największy kontekst w API |

*Jakość — wynik z [Artificial Analysis](https://artificialanalysis.ai/) (skala porównawcza, wyżej = lepiej)

### Modele open source

| Model | Firma | Kontekst | Parametry | Uwagi |
|---|---|---|---|---|
| **Llama 4 Scout** | Meta | 10M | 109B (17B aktywnych, MoE) | Rekordowy kontekst, można hostować samemu |
| **Llama 4 Maverick** | Meta | 1M | 400B (17B aktywnych, MoE) | Mocniejszy od Scout, mniejszy kontekst |
| **Qwen 3.5 Plus** | Alibaba | 1M | — | Dostępny przez API ($0.26/$1.56) |
| **Qwen 3 Max** | Alibaba | 262k | — | $1.20/$6 przez API |
| **DeepSeek V3.2** | DeepSeek | 164k | 685B (MoE) | Ekstremalnie tani: $0.28/$0.42 |
| **DeepSeek R1** | DeepSeek | 128k | — | Reasoning model: $0.55/$2.19 |
| **Mistral Large 3** | Mistral | 256k | — | $0.50/$1.50, dobry stosunek jakości do ceny |

### Co wynika z porównania

**Największy kontekst:** Llama 4 Scout z 10M tokenów — ale to model open source, który trzeba hostować samemu. Wymaga sporego GPU.

**Najtańszy duży kontekst w API:** Grok 4.1 Fast ($0.20/$0.50) z 2M kontekstem — ale jakość ustępuje topowym modelom. Gemini 2.5 Pro ($1.25/$10) oferuje najlepszą cenę wśród modeli najwyższej klasy.

**Najlepszy stosunek jakości do ceny:** Gemini 2.5 Pro i Claude Sonnet 4.6 walczą o to miejsce. Gemini jest tańszy na input, Claude ma lepszą reputację w kodowaniu.

**Uwaga na ukryte koszty:** GPT-5.4 i Gemini mają progowe ceny — input powyżej pewnego progu (272k dla GPT, 200k dla Gemini) kosztuje 2x więcej. Claude nie ma tego podziału — cena jest stała niezależnie od wypełnienia kontekstu.

**DeepSeek — osobna liga cenowa:** V3.2 za $0.28/$0.42 to 10x taniej niż Claude na input, ale kontekst tylko 164k i jakość niższa w złożonych zadaniach. Świetny do prostszych operacji na dużą skalę.

## Co można zrobić z 1M tokenów

### Analiza dużych baz kodu
Cały średni projekt mieści się w jednym zapytaniu. Można wrzucić repozytorium i poprosić o przegląd architektury, znalezienie antywzorców czy zaplanowanie refactoringu.

### Przetwarzanie dokumentacji
Cała dokumentacja produktu, regulaminy, specyfikacje — w jednym kontekście. Model widzi wszystkie zależności i odniesienia krzyżowe.

### Analiza logów i danych
Duże pliki logów, eksporty z bazy, dane CSV — można wrzucić i analizować bez preprocessingu.

### Długie sesje z agentami
Agenty AI (np. Claude Code) mogą prowadzić długie sesje pracy bez utraty kontekstu — model pamięta wcześniejsze ustalenia przez całą sesję.

## Extended thinking i adaptive thinking

Oba modele 4.6 obsługują **extended thinking** — model może "myśleć" dłużej przed odpowiedzią. W połączeniu z dużym kontekstem daje to możliwość głębokiej analizy obszernych materiałów.

**Adaptive thinking** (dostępne w Opus 4.6 i Sonnet 4.6) automatycznie dopasowuje głębokość rozumowania do złożoności pytania. Proste pytania dostają szybkie odpowiedzi, złożone — pogłębioną analizę.

## Prompt caching — klucz do oszczędności

Przy dużym kontekście prompt caching robi ogromną różnicę. Zamiast płacić pełną cenę za input przy każdym zapytaniu, cachowany prompt kosztuje ułamek. Jeśli wielokrotnie odpytujemy ten sam duży dokument, koszt spada dramatycznie.

Sprytna strategia to też **delegacja do tańszych modeli** — orchestrator na Opus zleca podtaski Haiku, który wykona pracę za 200k kontekstu w ~60k tokenów.

## Spostrzeżenia ze społeczności

Milion tokenów kontekstu to duży krok, ale nie rozwiązuje wszystkich problemów. Kilka praktycznych wniosków wartych uwzględnienia:

**Kontekst ma swoją "strefę zmierzchu".** Po przekroczeniu 100-150k tokenów jakość odpowiedzi zaczyna spadać. Model formalnie obsługuje 1M, ale w praktyce najlepiej działa gdy najważniejsze informacje są na początku lub końcu kontekstu. Warto trzymać sesje poniżej ~100k i zaczynać nowe zamiast ciągnąć stare.

**Kompresja kontekstu gubi szczegóły.** Przy długich sesjach model kompresuje wcześniejsze fragmenty rozmowy i ważne detale mogą zniknąć — np. kroki debugowania czy ustalone wcześniej założenia. To szczególnie bolesne przy wielogodzinnych sesjach kodowania.

**Struktura zadania ma większe znaczenie niż rozmiar kontekstu.** Sukcesy z dużym kontekstem korelują z umiejętnością dzielenia pracy na etapy: research → plan → implementacja, każdy w osobnym oknie. Wrzucenie wszystkiego do jednego zapytania nie gwarantuje lepszych wyników.

**Opus wyraźnie lepszy w kodowaniu, Sonnet w szybkości.** Przy skomplikowanych zadaniach programistycznych (zmiany architektoniczne, złożone debugowanie) Opus 4.6 radzi sobie znacząco lepiej. Sonnet sprawdza się przy prototypowaniu, prostych refaktoryzacjach i generowaniu testów.

**Greenfield łatwiejszy niż legacy.** Modele radzą sobie dobrze z tworzeniem nowych projektów od zera, gorzej z modyfikacją istniejącego złożonego kodu — zwłaszcza gdy wymaga głębokiego zrozumienia domeny.

---

**Źródła:**
- [Dokumentacja modeli Claude](https://docs.anthropic.com/en/docs/about-claude/models)
- [Artificial Analysis — ranking modeli](https://artificialanalysis.ai/leaderboards/models)
- [Cennik Gemini API](https://ai.google.dev/gemini-api/docs/pricing)
- [Cennik DeepSeek API](https://api-docs.deepseek.com/quick_start/pricing)
- [Dyskusja na Hacker News](https://news.ycombinator.com/item?id=47367129)


---

## Powiązane

- [Luki bezpieczeństwa w narzędziach AI — przegląd incydentów 2025-2026](https://intum.dev/modele-ai/luki-bezpieczenstwa-w-narzedziach-ai-przeglad-incydentow-2025-2026.md)
- [Jak pisać prompty do helpdesku AI — przykład, porównanie modeli i pułapki](https://intum.dev/ai-w-praktyce/jak-pisac-prompty-do-helpdesku-ai-przyklad-porownanie-modeli-i-pulapki.md)
- [RAG pipeline — jak budować sugerowanie odpowiedzi AI z bazy wiedzy](https://intum.dev/ai-w-praktyce/rag-pipeline-jak-budowac-sugerowanie-odpowiedzi-ai-z-bazy-wiedzy.md)