Google Gemma 4 - otwarte modele AI i porównanie z konkurencją

Aktualizacja: 02-04-2026 • Wyświetleń: 124 • 4 min czytania

AI LLM gemma google open-source benchmark

Przejdź do sekcji

Warianty modeli
Benchmarki Gemma 4
Porównanie z modelami open-source
Porównanie z modelami komercyjnymi
Praktyczne obserwacje
Linki

Google wypuścił w 2026 roku serię otwartych modeli Gemma 4. Wyróżniają się bardzo dobrymi wynikami w matematyce i kodowaniu jak na swoją wielkość, a przy tym są darmowe i można je uruchamiać lokalnie.

Warianty modeli

Gemma 4 31B - gęsty model, najsilniejszy z serii. 31 miliardów parametrów, obsługuje tekst i obrazy. Reasoning, tool calling, długi kontekst (128K).

Gemma 4 26B A4B - model MoE (mixture of experts), 26B parametrów ale tylko 4B aktywnych przy inferencji. Prawie tak dobry jak 31B, znacznie tańszy w uruchomieniu. Najlepszy stosunek jakości do rozmiaru w całej serii.

Gemma 4 E4B - mały model na urządzenia mobilne, obsługuje tekst, obraz i audio. 4 miliardy parametrów.

Gemma 4 E2B - najmniejszy, 2 miliardy parametrów. Tekst, obraz, audio. Do embeddingu w aplikacjach.

Benchmarki Gemma 4

Benchmark	31B	26B A4B	E4B	E2B	Gemma 3 27B
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026	89.2%	88.3%	42.5%	37.5%	20.8%
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	—
Codeforces ELO	2150	1718	940	633	—
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
MMMU Pro (vision)	76.9%	73.8%	52.6%	44.2%	49.7%
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
Long context 128K	66.4%	44.1%	25.4%	19.1%	—

Skok względem Gemma 3 jest ogromny - AIME z 20.8% na 89.2%, GPQA z 42.4% na 84.3%. To zupełnie inna liga.

Porównanie z modelami open-source

Posortowane od najlepszych. Wyniki z oficjalnych benchmarków i Arena AI (kwiecień 2026).

#	Model	Parametry	Kontekst	MMLU Pro	AIME 2026	LiveCodeBench	GPQA Diamond	Arena Rank
1	Gemma 4 31B	31B dense	128K	85.2%	89.2%	80.0%	84.3%	—
2	Qwen 3.5 235B A22B	235B MoE (22B akt.)	262K	~85%	~85%	~75%	~80%	#58
3	Gemma 4 26B A4B	26B MoE (4B akt.)	128K	82.6%	88.3%	77.1%	82.3%	—
4	GLM-5	nieznane	128K	~83%	~78%	~72%	~79%	#21
5	DeepSeek V3.2	671B MoE	128K	~84%	~80%	~70%	~78%	#54
6	MiMo V2 Pro	nieznane	128K	~82%	~76%	~68%	~75%	#35
7	Llama 4 Maverick	400B MoE	1M	~82%	~70%	~65%	~72%	—
8	Kimi K2	nieznane	128K	~80%	~72%	~66%	~73%	#63
9	Mistral Large 2	123B	128K	~78%	~50%	~55%	~65%	—
10	Llama 4 Scout	109B MoE	10M	~75%	~45%	~50%	~60%	—

Gemma 4 31B bije modele kilkukrotnie większe. DeepSeek V3.2 ma 671B parametrów i przegrywa z 31-miliardową Gemmą w matematyce i kodowaniu. Qwen 3.5 jest porównywalny, ale potrzebuje 235B parametrów.

26B A4B to prawdziwa perełka - z zaledwie 4B aktywnych parametrów osiąga wyniki porównywalne z modelami 5-50x większymi.

Porównanie z modelami komercyjnymi

Posortowane od najlepszych według Arena Rank (kwiecień 2026).

#	Model	Provider	Arena Rank	Intelligence Index	MMLU Pro	Cena
1	Claude Opus 4.6 (thinking)	Anthropic	#1	53	~92%	$$$
2	Gemini 3.1 Pro	Google	#3	57	~91%	$$
3	GPT-5.4 (high)	OpenAI	#6	57	~90%	$$$
4	Grok 4.20 (reasoning)	xAI	#7	48	~88%	$$
5	GPT-5.2	OpenAI	#8	51	~89%	$$
6	Gemini 3 Flash	Google	#9	46	~87%	$
7	Claude Sonnet 4.6	Anthropic	#17	52	~87%	$
8	GPT-5.4 mini (high)	OpenAI	#22	48	~85%	$
9	Claude Haiku 4.5	Anthropic	~#40	~38	~82%	$
10	GPT-5.1	OpenAI	#23	48	~86%	$$
11	Qwen 3.6 Plus	Alibaba	~#14	—	brak oficjalnych	$$
—	Gemma 4 31B	Google (open)	—	—	85.2%	darmowy
—	Gemma 4 26B A4B	Google (open)	—	—	82.6%	darmowy

Qwen 3.6 Plus (marzec 2026) to closed-source API z 1M kontekstem i 65K max output. Brak oficjalnych benchmarków - Alibaba porównuje się z Claude 4.5 zamiast 4.6. Na Terminal-Bench 2.0 (agentowe kodowanie) wypadł 61.6, powyżej Claude 4.5 Opus (59.3). Szybki (3x tokeny/s vs Claude Opus 4.6 wg wczesnych testów), ale jakość do zweryfikowania.

Gemma 4 31B wypada na poziomie GPT-5.4 mini i Claude Haiku 4.5, a w matematyce (AIME 89.2%) bije większość modeli komercyjnych. Traci do czołówki 5-7 punktów procentowych w benchmarkach ogólnych, ale kosztuje zero.

Do codziennych zadań - generowanie kodu, analiza dokumentów, odpowiadanie na pytania - Gemma 4 31B daje radę bez wydawania pieniędzy na API. Do złożonych agentów i długich sesji kodowania modele komercyjne nadal mają przewagę.

Praktyczne obserwacje

Simon Willison testował modele generując SVG pelikanów. 26B A4B wypadł “outstanding”, mniejsze warianty znacznie słabiej.

W ocenach ludzkich (Arena ELO) Gemma 4 wypada lepiej niż w standardowych benchmarkach - modele dobrze “rozumieją” intencje użytkownika, nawet jeśli w automatycznych testach nie zawsze trafiają w oczekiwaną odpowiedź.

Skwantyzowane wersje od Unsloth (parametry: temperature=1.0, top_p=0.95) pozwalają uruchomić modele na consumer-grade GPU.

Używanie AI

Oprogramowanie dla firm

Narzędzia AI

Bazy Danych

Modele AI

Technologia