[Intum Dev](https://intum.dev.md) / [Modele AI](https://intum.dev/modele-ai.md)

# [Google Gemma 4 - otwarte modele AI i porównanie z konkurencją](https://intum.dev/modele-ai/google-gemma-4-otwarte-modele-ai-i-porownanie-z-konkurencja.md)

Google wypuścił w 2026 roku serię otwartych modeli Gemma 4. Wyróżniają się bardzo dobrymi wynikami w matematyce i kodowaniu jak na swoją wielkość, a przy tym są darmowe i można je uruchamiać lokalnie.

## Warianty modeli

**Gemma 4 31B** - gęsty model, najsilniejszy z serii. 31 miliardów parametrów, obsługuje tekst i obrazy. Reasoning, tool calling, długi kontekst (128K).

**Gemma 4 26B A4B** - model MoE (mixture of experts), 26B parametrów ale tylko 4B aktywnych przy inferencji. Prawie tak dobry jak 31B, znacznie tańszy w uruchomieniu. Najlepszy stosunek jakości do rozmiaru w całej serii.

**Gemma 4 E4B** - mały model na urządzenia mobilne, obsługuje tekst, obraz i audio. 4 miliardy parametrów.

**Gemma 4 E2B** - najmniejszy, 2 miliardy parametrów. Tekst, obraz, audio. Do embeddingu w aplikacjach.

## Benchmarki Gemma 4

| Benchmark | 31B | 26B A4B | E4B | E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | --- |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | --- |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| MMMU Pro (vision) | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| Long context 128K | 66.4% | 44.1% | 25.4% | 19.1% | --- |

Skok względem Gemma 3 jest ogromny - AIME z 20.8% na 89.2%, GPQA z 42.4% na 84.3%. To zupełnie inna liga.

## Porównanie z modelami open-source

Posortowane od najlepszych. Wyniki z oficjalnych benchmarków i Arena AI (kwiecień 2026).

| # | Model | Parametry | Kontekst | MMLU Pro | AIME 2026 | LiveCodeBench | GPQA Diamond | Arena Rank |
|---|---|---|---|---|---|---|---|---|
| 1 | **Gemma 4 31B** | 31B dense | 128K | 85.2% | 89.2% | 80.0% | 84.3% | --- |
| 2 | Qwen 3.5 235B A22B | 235B MoE (22B akt.) | 262K | ~85% | ~85% | ~75% | ~80% | #58 |
| 3 | **Gemma 4 26B A4B** | 26B MoE (4B akt.) | 128K | 82.6% | 88.3% | 77.1% | 82.3% | --- |
| 4 | GLM-5 | nieznane | 128K | ~83% | ~78% | ~72% | ~79% | #21 |
| 5 | DeepSeek V3.2 | 671B MoE | 128K | ~84% | ~80% | ~70% | ~78% | #54 |
| 6 | MiMo V2 Pro | nieznane | 128K | ~82% | ~76% | ~68% | ~75% | #35 |
| 7 | Llama 4 Maverick | 400B MoE | 1M | ~82% | ~70% | ~65% | ~72% | --- |
| 8 | Kimi K2 | nieznane | 128K | ~80% | ~72% | ~66% | ~73% | #63 |
| 9 | Mistral Large 2 | 123B | 128K | ~78% | ~50% | ~55% | ~65% | --- |
| 10 | Llama 4 Scout | 109B MoE | 10M | ~75% | ~45% | ~50% | ~60% | --- |

Gemma 4 31B bije modele kilkukrotnie większe. DeepSeek V3.2 ma 671B parametrów i przegrywa z 31-miliardową Gemmą w matematyce i kodowaniu. Qwen 3.5 jest porównywalny, ale potrzebuje 235B parametrów.

26B A4B to prawdziwa perełka - z zaledwie 4B aktywnych parametrów osiąga wyniki porównywalne z modelami 5-50x większymi.

## Porównanie z modelami komercyjnymi

Posortowane od najlepszych według Arena Rank (kwiecień 2026).

| # | Model | Provider | Arena Rank | Intelligence Index | MMLU Pro | Cena |
|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 (thinking) | Anthropic | #1 | 53 | ~92% | $$$ |
| 2 | Gemini 3.1 Pro | Google | #3 | 57 | ~91% | $$ |
| 3 | GPT-5.4 (high) | OpenAI | #6 | 57 | ~90% | $$$ |
| 4 | Grok 4.20 (reasoning) | xAI | #7 | 48 | ~88% | $$ |
| 5 | GPT-5.2 | OpenAI | #8 | 51 | ~89% | $$ |
| 6 | Gemini 3 Flash | Google | #9 | 46 | ~87% | $ |
| 7 | Claude Sonnet 4.6 | Anthropic | #17 | 52 | ~87% | $ |
| 8 | GPT-5.4 mini (high) | OpenAI | #22 | 48 | ~85% | $ |
| 9 | Claude Haiku 4.5 | Anthropic | ~#40 | ~38 | ~82% | $ |
| 10 | GPT-5.1 | OpenAI | #23 | 48 | ~86% | $$ |
| 11 | Qwen 3.6 Plus | Alibaba | ~#14 | --- | brak oficjalnych | $$ |
| --- | **Gemma 4 31B** | Google (open) | --- | --- | 85.2% | darmowy |
| --- | **Gemma 4 26B A4B** | Google (open) | --- | --- | 82.6% | darmowy |

Qwen 3.6 Plus (marzec 2026) to closed-source API z 1M kontekstem i 65K max output. Brak oficjalnych benchmarków - Alibaba porównuje się z Claude 4.5 zamiast 4.6. Na Terminal-Bench 2.0 (agentowe kodowanie) wypadł 61.6, powyżej Claude 4.5 Opus (59.3). Szybki (3x tokeny/s vs Claude Opus 4.6 wg wczesnych testów), ale jakość do zweryfikowania.

Gemma 4 31B wypada na poziomie GPT-5.4 mini i Claude Haiku 4.5, a w matematyce (AIME 89.2%) bije większość modeli komercyjnych. Traci do czołówki 5-7 punktów procentowych w benchmarkach ogólnych, ale kosztuje zero.

Do codziennych zadań - generowanie kodu, analiza dokumentów, odpowiadanie na pytania - Gemma 4 31B daje radę bez wydawania pieniędzy na API. Do złożonych agentów i długich sesji kodowania modele komercyjne nadal mają przewagę.

## Praktyczne obserwacje

Simon Willison testował modele generując SVG pelikanów. 26B A4B wypadł "outstanding", mniejsze warianty znacznie słabiej.

W ocenach ludzkich (Arena ELO) Gemma 4 wypada lepiej niż w standardowych benchmarkach - modele dobrze "rozumieją" intencje użytkownika, nawet jeśli w automatycznych testach nie zawsze trafiają w oczekiwaną odpowiedź.

Skwantyzowane wersje od Unsloth (parametry: temperature=1.0, top_p=0.95) pozwalają uruchomić modele na consumer-grade GPU.

## Linki

- [Gemma 4 - Google DeepMind](https://deepmind.google/models/gemma/gemma-4/)
- [Gemma 4 model card](https://ai.google.dev/gemma/docs/core/model_card_4)
- [Dyskusja na Hacker News](https://news.ycombinator.com/item?id=47616361)
- [Arena AI Leaderboard](https://arena.ai/?leaderboard)
- [Artificial Analysis - porównanie modeli](https://artificialanalysis.ai/leaderboards/models)