Przejdź do treści
Intum Dev

Google Gemma 4 - otwarte modele AI i porównanie z konkurencją

Aktualizacja: 4 min czytania

Google wypuścił w 2026 roku serię otwartych modeli Gemma 4. Wyróżniają się bardzo dobrymi wynikami w matematyce i kodowaniu jak na swoją wielkość, a przy tym są darmowe i można je uruchamiać lokalnie.

Warianty modeli

Gemma 4 31B - gęsty model, najsilniejszy z serii. 31 miliardów parametrów, obsługuje tekst i obrazy. Reasoning, tool calling, długi kontekst (128K).

Gemma 4 26B A4B - model MoE (mixture of experts), 26B parametrów ale tylko 4B aktywnych przy inferencji. Prawie tak dobry jak 31B, znacznie tańszy w uruchomieniu. Najlepszy stosunek jakości do rozmiaru w całej serii.

Gemma 4 E4B - mały model na urządzenia mobilne, obsługuje tekst, obraz i audio. 4 miliardy parametrów.

Gemma 4 E2B - najmniejszy, 2 miliardy parametrów. Tekst, obraz, audio. Do embeddingu w aplikacjach.

Benchmarki Gemma 4

Benchmark 31B 26B A4B E4B E2B Gemma 3 27B
MMLU Pro 85.2% 82.6% 69.4% 60.0% 67.6%
AIME 2026 89.2% 88.3% 42.5% 37.5% 20.8%
GPQA Diamond 84.3% 82.3% 58.6% 43.4% 42.4%
LiveCodeBench v6 80.0% 77.1% 52.0% 44.0%
Codeforces ELO 2150 1718 940 633
MMMLU 88.4% 86.3% 76.6% 67.4% 70.7%
MMMU Pro (vision) 76.9% 73.8% 52.6% 44.2% 49.7%
MATH-Vision 85.6% 82.4% 59.5% 52.4% 46.0%
Long context 128K 66.4% 44.1% 25.4% 19.1%

Skok względem Gemma 3 jest ogromny - AIME z 20.8% na 89.2%, GPQA z 42.4% na 84.3%. To zupełnie inna liga.

Porównanie z modelami open-source

Posortowane od najlepszych. Wyniki z oficjalnych benchmarków i Arena AI (kwiecień 2026).

# Model Parametry Kontekst MMLU Pro AIME 2026 LiveCodeBench GPQA Diamond Arena Rank
1 Gemma 4 31B 31B dense 128K 85.2% 89.2% 80.0% 84.3%
2 Qwen 3.5 235B A22B 235B MoE (22B akt.) 262K ~85% ~85% ~75% ~80% #58
3 Gemma 4 26B A4B 26B MoE (4B akt.) 128K 82.6% 88.3% 77.1% 82.3%
4 GLM-5 nieznane 128K ~83% ~78% ~72% ~79% #21
5 DeepSeek V3.2 671B MoE 128K ~84% ~80% ~70% ~78% #54
6 MiMo V2 Pro nieznane 128K ~82% ~76% ~68% ~75% #35
7 Llama 4 Maverick 400B MoE 1M ~82% ~70% ~65% ~72%
8 Kimi K2 nieznane 128K ~80% ~72% ~66% ~73% #63
9 Mistral Large 2 123B 128K ~78% ~50% ~55% ~65%
10 Llama 4 Scout 109B MoE 10M ~75% ~45% ~50% ~60%

Gemma 4 31B bije modele kilkukrotnie większe. DeepSeek V3.2 ma 671B parametrów i przegrywa z 31-miliardową Gemmą w matematyce i kodowaniu. Qwen 3.5 jest porównywalny, ale potrzebuje 235B parametrów.

26B A4B to prawdziwa perełka - z zaledwie 4B aktywnych parametrów osiąga wyniki porównywalne z modelami 5-50x większymi.

Porównanie z modelami komercyjnymi

Posortowane od najlepszych według Arena Rank (kwiecień 2026).

# Model Provider Arena Rank Intelligence Index MMLU Pro Cena
1 Claude Opus 4.6 (thinking) Anthropic #1 53 ~92% $$$
2 Gemini 3.1 Pro Google #3 57 ~91% $$
3 GPT-5.4 (high) OpenAI #6 57 ~90% $$$
4 Grok 4.20 (reasoning) xAI #7 48 ~88% $$
5 GPT-5.2 OpenAI #8 51 ~89% $$
6 Gemini 3 Flash Google #9 46 ~87% $
7 Claude Sonnet 4.6 Anthropic #17 52 ~87% $
8 GPT-5.4 mini (high) OpenAI #22 48 ~85% $
9 Claude Haiku 4.5 Anthropic ~#40 ~38 ~82% $
10 GPT-5.1 OpenAI #23 48 ~86% $$
11 Qwen 3.6 Plus Alibaba ~#14 brak oficjalnych $$
Gemma 4 31B Google (open) 85.2% darmowy
Gemma 4 26B A4B Google (open) 82.6% darmowy

Qwen 3.6 Plus (marzec 2026) to closed-source API z 1M kontekstem i 65K max output. Brak oficjalnych benchmarków - Alibaba porównuje się z Claude 4.5 zamiast 4.6. Na Terminal-Bench 2.0 (agentowe kodowanie) wypadł 61.6, powyżej Claude 4.5 Opus (59.3). Szybki (3x tokeny/s vs Claude Opus 4.6 wg wczesnych testów), ale jakość do zweryfikowania.

Gemma 4 31B wypada na poziomie GPT-5.4 mini i Claude Haiku 4.5, a w matematyce (AIME 89.2%) bije większość modeli komercyjnych. Traci do czołówki 5-7 punktów procentowych w benchmarkach ogólnych, ale kosztuje zero.

Do codziennych zadań - generowanie kodu, analiza dokumentów, odpowiadanie na pytania - Gemma 4 31B daje radę bez wydawania pieniędzy na API. Do złożonych agentów i długich sesji kodowania modele komercyjne nadal mają przewagę.

Praktyczne obserwacje

Simon Willison testował modele generując SVG pelikanów. 26B A4B wypadł “outstanding”, mniejsze warianty znacznie słabiej.

W ocenach ludzkich (Arena ELO) Gemma 4 wypada lepiej niż w standardowych benchmarkach - modele dobrze “rozumieją” intencje użytkownika, nawet jeśli w automatycznych testach nie zawsze trafiają w oczekiwaną odpowiedź.

Skwantyzowane wersje od Unsloth (parametry: temperature=1.0, top_p=0.95) pozwalają uruchomić modele na consumer-grade GPU.

Linki

Czy ten wpis był pomocny?

Udostępnij

Komentarze