Gemini 3: Google startet die nächste KI-Ära – neues KI-Modell im Benchmark-Vergleich zu 2.5 Pro, GPT, Claude

Veröffentlicht am 19. November 2025 von Jens

Google hat gestern Abend mit Gemini 3 die neueste Version des KI-Modells veröffentlicht, mit der man eine ganz neue KI-Ära beginnen will. Das bisher intelligenteste Modell soll mit diesem Meilenstein noch stärker werden, noch mehr Möglichkeiten eröffnen und die Multimodalität in den Mittelpunkt stellen. Die von Google veröffentlichten Leistungsdaten können sich sehen lassen.

Google-CEO Sundar Pichai hat es in der gestrigen Ankündigung bereits passend zusammengefasst: Es ist unglaublich zu sehen, wie sich Gemini innerhalb von nur zwei Jahren nach dem Start entwickelt hat und welche Möglichkeiten es heute bietet. Das von Google seit praktisch zwei Jahren mit Dauerfeuer gepushte KI-Modell kommt in allen Google-Produkten zum Einsatz und konnte durch die Erfahrungswerte durch die Verwendung von über 650 Millionen aktiven Nutzern massiv zulegen.

Laut der Aussage von Google Deepmind-CEO Demis Hassabis im Google-Blog ist Gemini 3 das weltweit beste Modell für multimodales Verständnis und das bisher leistungsstärkste Agentic- und Vibe-Coding-Modell. Gemini 3 bietet eine bessere Visualisierung, eine größere Interaktivität sowie den neuesten technischen Stand der KI-Schlussfolgerungen. Man spricht vielleicht zurecht davon, dass mit Gemini 3 noch einmal eine ganz neue KI-Ära begründet werden soll.

Wir haben euch bereits gestern in unserem Artikel zu Gemini 3 alle Informationen zusammengestellt. Jetzt soll es noch um die nackten Zahlen gehen, die Google im Rahmen eines selbst durchgeführten Benchmarks zwischen Gemini 3 Pro, Gemini 2.5 Pro sowie GPT-5.1 und Claude Sonnet 4.5 durchgeführt hat. Glaubt man diesen Daten, liegt Gemini in fast allen Bereichen vor der Konkurrenz.

Die Leistung von Gemini 3 Pro im Benchmark:

Akademisches und Schlussfolgerndes Denken:
- Humanity’s Last Exam (Akademisches Denken): Gemini 3 Pro erreicht 37,5 % und liegt damit signifikant vor GPT-5.1 (26,5 %) und allen anderen.
- ARC-AGI-2 (Visuelle Rätsel): Mit 31,1 % übertrifft es die Konkurrenz bei Weitem.
- CharXIv Reasoning (Informationssynthese): Es führt mit 81,4 %.
Wissen und Multimodalität:
- GPQA Diamond (Wissenschaftliches Wissen): Gemini 3 Pro führt mit 91,9 %.
- MMM-Pro (Multimodales Verständnis): Das Modell erreicht 81,0 % und ist damit das Beste.
- Video-MMM (Wissensgewinnung aus Videos): Gemini 3 Pro erzielt 87,6 %, den Spitzenwert.
- OmniDoc Bench 1.5 (OCR/Text-Erkennung): Mit einem Overall Edit Distance von 0,115 (niedriger ist besser) liefert es das beste Ergebnis.
Mathematik und Codierung:
- AIME 2025 (Mathematik): Gemini 3 Pro führt mit 95,0 %.
- MathArena Apex (Anspruchsvolle Mathematik-Wettbewerbsaufgaben): Mit 23,4 % liegt es deutlich vor allen anderen Modellen (die unter 2 % liegen).
- LiveCodeBench Pro (Wettbewerbsprogrammierung): Mit einem Elo Rating von 2.439 ist es das führende Modell.
- SWE-Bench Verified (Agentisches Codieren): Mit 76,2 % liegt es knapp hinter GPT-5.1 (77,2 %), aber weit vor Gemini 2.5 Pro (59,6 %).
Agentenaufgaben und Tool-Nutzung:
- Vending-Bench 2 (Langfristige Agentenaufgaben): Gemini 3 Pro erzielt den höchsten Wert von $5.478,16 (Net worth), was alle anderen Modelle klar übertrifft.
- t2-bench (Agentische Tool-Nutzung): Es führt mit 85,4 %.
- ScreenSpot-Pro (Screen Understanding): Das Modell erreicht 72,7 %, was eine sehr hohe Leistung im Vergleich zu den Mitbewerbern darstellt.
Globales und Sprachverständnis:
- MMMLU (Mehrsprachige Q&A): Es führt mit 91,8 %.
- Global PIQA (Alltagslogik über 100 Sprachen): Mit 93,4 % erzielt Gemini 3 Pro auch hier den Spitzenwert.
Langzeitkontext:
- MRCR v2 (8-Needle) (Long context performance): Bei der 128k-Kontextlänge liegt der Durchschnitt bei 77,0 %. Bei der 1M (Pointwise)-Kontextlänge erreicht Gemini 3 Pro 26,3 %, während die anderen Modelle diesen Test nicht unterstützen.