Google wypuścił w 2026 roku serię otwartych modeli Gemma 4. Wyróżniają się bardzo dobrymi wynikami w matematyce i kodowaniu jak na swoją wielkość, a przy tym są darmowe i można je uruchamiać lokalnie.
Warianty modeli
Gemma 4 31B - gęsty model, najsilniejszy z serii. 31 miliardów parametrów, obsługuje tekst i obrazy. Reasoning, tool calling, długi kontekst (128K).
Gemma 4 26B A4B - model MoE (mixture of experts), 26B parametrów ale tylko 4B aktywnych przy inferencji. Prawie tak dobry jak 31B, znacznie tańszy w uruchomieniu. Najlepszy stosunek jakości do rozmiaru w całej serii.
Gemma 4 E4B - mały model na urządzenia mobilne, obsługuje tekst, obraz i audio. 4 miliardy parametrów.
Gemma 4 E2B - najmniejszy, 2 miliardy parametrów. Tekst, obraz, audio. Do embeddingu w aplikacjach.
Benchmarki Gemma 4
| Benchmark | 31B | 26B A4B | E4B | E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | — |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | — |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| MMMU Pro (vision) | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| Long context 128K | 66.4% | 44.1% | 25.4% | 19.1% | — |
Skok względem Gemma 3 jest ogromny - AIME z 20.8% na 89.2%, GPQA z 42.4% na 84.3%. To zupełnie inna liga.
Porównanie z modelami open-source
Posortowane od najlepszych. Wyniki z oficjalnych benchmarków i Arena AI (kwiecień 2026).
| # | Model | Parametry | Kontekst | MMLU Pro | AIME 2026 | LiveCodeBench | GPQA Diamond | Arena Rank |
|---|---|---|---|---|---|---|---|---|
| 1 | Gemma 4 31B | 31B dense | 128K | 85.2% | 89.2% | 80.0% | 84.3% | — |
| 2 | Qwen 3.5 235B A22B | 235B MoE (22B akt.) | 262K | ~85% | ~85% | ~75% | ~80% | #58 |
| 3 | Gemma 4 26B A4B | 26B MoE (4B akt.) | 128K | 82.6% | 88.3% | 77.1% | 82.3% | — |
| 4 | GLM-5 | nieznane | 128K | ~83% | ~78% | ~72% | ~79% | #21 |
| 5 | DeepSeek V3.2 | 671B MoE | 128K | ~84% | ~80% | ~70% | ~78% | #54 |
| 6 | MiMo V2 Pro | nieznane | 128K | ~82% | ~76% | ~68% | ~75% | #35 |
| 7 | Llama 4 Maverick | 400B MoE | 1M | ~82% | ~70% | ~65% | ~72% | — |
| 8 | Kimi K2 | nieznane | 128K | ~80% | ~72% | ~66% | ~73% | #63 |
| 9 | Mistral Large 2 | 123B | 128K | ~78% | ~50% | ~55% | ~65% | — |
| 10 | Llama 4 Scout | 109B MoE | 10M | ~75% | ~45% | ~50% | ~60% | — |
Gemma 4 31B bije modele kilkukrotnie większe. DeepSeek V3.2 ma 671B parametrów i przegrywa z 31-miliardową Gemmą w matematyce i kodowaniu. Qwen 3.5 jest porównywalny, ale potrzebuje 235B parametrów.
26B A4B to prawdziwa perełka - z zaledwie 4B aktywnych parametrów osiąga wyniki porównywalne z modelami 5-50x większymi.
Porównanie z modelami komercyjnymi
Posortowane od najlepszych według Arena Rank (kwiecień 2026).
| # | Model | Provider | Arena Rank | Intelligence Index | MMLU Pro | Cena |
|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 (thinking) | Anthropic | #1 | 53 | ~92% | $$$ |
| 2 | Gemini 3.1 Pro | #3 | 57 | ~91% | $$ | |
| 3 | GPT-5.4 (high) | OpenAI | #6 | 57 | ~90% | $$$ |
| 4 | Grok 4.20 (reasoning) | xAI | #7 | 48 | ~88% | $$ |
| 5 | GPT-5.2 | OpenAI | #8 | 51 | ~89% | $$ |
| 6 | Gemini 3 Flash | #9 | 46 | ~87% | $ | |
| 7 | Claude Sonnet 4.6 | Anthropic | #17 | 52 | ~87% | $ |
| 8 | GPT-5.4 mini (high) | OpenAI | #22 | 48 | ~85% | $ |
| 9 | Claude Haiku 4.5 | Anthropic | ~#40 | ~38 | ~82% | $ |
| 10 | GPT-5.1 | OpenAI | #23 | 48 | ~86% | $$ |
| 11 | Qwen 3.6 Plus | Alibaba | ~#14 | — | brak oficjalnych | $$ |
| — | Gemma 4 31B | Google (open) | — | — | 85.2% | darmowy |
| — | Gemma 4 26B A4B | Google (open) | — | — | 82.6% | darmowy |
Qwen 3.6 Plus (marzec 2026) to closed-source API z 1M kontekstem i 65K max output. Brak oficjalnych benchmarków - Alibaba porównuje się z Claude 4.5 zamiast 4.6. Na Terminal-Bench 2.0 (agentowe kodowanie) wypadł 61.6, powyżej Claude 4.5 Opus (59.3). Szybki (3x tokeny/s vs Claude Opus 4.6 wg wczesnych testów), ale jakość do zweryfikowania.
Gemma 4 31B wypada na poziomie GPT-5.4 mini i Claude Haiku 4.5, a w matematyce (AIME 89.2%) bije większość modeli komercyjnych. Traci do czołówki 5-7 punktów procentowych w benchmarkach ogólnych, ale kosztuje zero.
Do codziennych zadań - generowanie kodu, analiza dokumentów, odpowiadanie na pytania - Gemma 4 31B daje radę bez wydawania pieniędzy na API. Do złożonych agentów i długich sesji kodowania modele komercyjne nadal mają przewagę.
Praktyczne obserwacje
Simon Willison testował modele generując SVG pelikanów. 26B A4B wypadł “outstanding”, mniejsze warianty znacznie słabiej.
W ocenach ludzkich (Arena ELO) Gemma 4 wypada lepiej niż w standardowych benchmarkach - modele dobrze “rozumieją” intencje użytkownika, nawet jeśli w automatycznych testach nie zawsze trafiają w oczekiwaną odpowiedź.
Skwantyzowane wersje od Unsloth (parametry: temperature=1.0, top_p=0.95) pozwalają uruchomić modele na consumer-grade GPU.