Wann hat Google OpenAI im Elo-Ranking überholt?
Seit 2024 werden große Sprachmodelle (Large Language Models, LLMs) zunehmend in Community-basierten Benchmark-Plattformen mithilfe des Elo-Ratingsystems verglichen. Dieser Artikel dokumentiert die wichtigsten Meilensteine im Leistungsvergleich von Google Gemini und OpenAIs GPT-Modellen auf Basis von veröffentlichten Elo-Daten, insbesondere aus der LMSYS Chatbot Arena.
1. Methodischer Hintergrund: Das Elo-Ratingsystem für LLMs
Das Elo-Ratingsystem wurde ursprünglich 1959 vom Physiker Árpád Élő zur Bewertung relativer Spielstärken im Schach entwickelt.[1] Die Grundformel lautet:
R' = R + K × (S − E)
Dabei bezeichnet R die bisherige Elo-Zahl, K den Anpassungsfaktor (typischerweise 32), S das Ergebnis (1 = Sieg, 0,5 = Unentschieden, 0 = Niederlage) und E die erwartete Gewinnwahrscheinlichkeit. Bei einem Elo-Vorsprung von 100 Punkten beträgt die statistische Gewinnwahrscheinlichkeit etwa 64 %.
Die LMSYS Chatbot Arena, ein offenes Benchmark-System der UC Berkeley, überträgt dieses Prinzip auf LLMs: Nutzer stellen anonymisierte Modellantworten gegenüber und wählen den bevorzugten Beitrag. Aus Millionen solcher paarweisen Vergleiche errechnet sich ein dynamisches Elo-Ranking.[2] Das Verfahren gilt als praxisnäher als rein automatisierte Benchmarks, da es reale Nutzerpräferenzen abbildet.
2. Chronologie der Elo-Meilensteine
2.1 Januar 2024: Gemini Pro überholt GPT-4
Am 26. Januar 2024 übertraf Google Gemini Pro erstmals OpenAIs GPT-4 in Elo-basierten Leistungsvergleichen. Gemini 1.0 Pro erzielte dabei eine Elo-Wertung von ca. 1.250–1.280, während GPT-4 bei ungefähr 1.240 lag. Dieser Abstand galt als statistisch signifikant, wenn auch nicht als eindeutige Dominanz. Als Ursache für den Leistungssprung wird Googles Mixture-of-Experts-Architektur (MoE) diskutiert, die eine effizientere Skalierung ermöglicht als dicht verknüpfte Transformer-Architekturen.[3]
2.2 Sommer 2024: Gemini 1.5 Pro und der Aufstieg von GPT-4o
Im Februar 2024 veröffentlichte OpenAI GPT-4o, das mit einer Elo-Wertung von über 1.300 kurzfristig die Spitzenposition einnahm. Google antwortete mit Gemini 1.5 Pro (Februar/Mai 2024), das durch einen Kontextfenster von bis zu einer Million Token und verbesserte Reasoning-Fähigkeiten charakterisiert ist. Etwa zum 31. Juli 2024 übertraf Gemini 1.5 Pro Experimental GPT-4o erstmals klar in der LMSYS Arena, mit besonders deutlichen Vorteilen in den Kategorien Coding, Mathematik und visuelle Verarbeitung.[4]
2.3 November 2024: Rückeroberung der Spitzenposition
Im November 2024 (ab dem 14. November, Modellbezeichnung Gemini-Exp-1114) übernahm Google erneut den ersten Rang in der LMSYS Arena, nachdem OpenAI mit dem Modell o1-Preview zwischenzeitlich aufgeschlossen hatte.[5]
2.4 Ende 2025: Erstmaliges Überschreiten der 1500-Elo-Schwelle
Im November 2025 überschritt Gemini 3 Pro als erstes öffentlich dokumentiertes Modell die Elo-Schwelle von 1.500 Punkten (gemeldeter Wert: 1.501). Dies wurde von mehreren Technologiepublikationen als Meilenstein der KI-Leistungsentwicklung bewertet.[6] Gemäß dem Vellum AI Leaderboard erzielte Gemini 3 Pro in etwa 80 % der Kategorien höhere Bewertungen als GPT-4o.
2.5 Stand Februar 2026
Gemäß dem offiziellen LMSYS Chatbot Arena Leaderboard (openlm.ai/chatbot-arena/) führt Gemini-3.1-Pro die Rangliste Ende Februar 2026 mit einem Arena-Elo von 1.505 an.[7] Direkt dahinter folgt Claude Opus 4.6 Thinking (Anthropic) mit 1.503 Elo. Grok-4.1-Thinking (xAI) belegt mit 1.482 Elo den fünften Rang. Die Spitzengruppe wird damit maßgeblich durch Thinking-Varianten dominiert – Modelle, die explizite mehrstufige Reasoning-Prozesse vor der finalen Antwortgenerierung nutzen. Die Rangliste unterliegt wöchentlichen Schwankungen durch neue Modellversionen und -varianten.
3. Tabellarische Übersicht der wichtigsten Meilensteine
| Meilenstein | Datum | Modell | Elo (ca.) | Quelle |
|---|---|---|---|---|
| Erstes Überholen von GPT-4 | 26. Januar 2024 | Gemini 1.0 Pro | ~1.280 | LMSYS Arena / Wikipedia LLM-Artikel |
| Überholung von GPT-4o | ca. 31. Juli 2024 | Gemini 1.5 Pro Experimental | ~1.310 | LMSYS Arena |
| Rückeroberung Platz 1 | 14. November 2024 | Gemini-Exp-1114 | ~1.330 | LMSYS Arena |
| Erstmaliges Überschreiten von Elo 1500 | November 2025 | Gemini 3 Pro | 1.501 | Vellum AI Leaderboard / HumansAreObsolete.com |
| Spitzenposition (Platz 1) | Ende Februar 2026 | Gemini-3.1-Pro | 1.505 | LMSYS Chatbot Arena (openlm.ai) |
| Platz 2 | Ende Februar 2026 | Claude Opus 4.6 Thinking | 1.503 | LMSYS Chatbot Arena (openlm.ai) |
| Platz 5 | Ende Februar 2026 | Grok-4.1-Thinking | 1.482 | LMSYS Chatbot Arena (openlm.ai) |
4. Einschränkungen und Kritik des Elo-Ansatzes
Das Elo-System in LLM-Benchmarks weist methodische Einschränkungen auf, die bei der Interpretation der Ergebnisse zu beachten sind:
Sprachliche Verzerrung: Die Mehrheit der Bewertungsinteraktionen erfolgt auf Englisch, was zu einer potenziellen Benachteiligung nicht-englischer Stärken der Modelle führt.
Popularitätsbias: Intensiv beworbene Modelle können temporär höhere Bewertungen erzielen, wenn ein erhöhtes Nutzerinteresse zu nicht-repräsentativen Votings führt.
Stichprobenabhängigkeit: Die Community der Arena-Nutzer entspricht nicht zwingend dem Querschnitt aller LLM-Anwendungsfelder.
Trotz dieser Einschränkungen korreliert das Arena-Ranking empirisch gut mit etablierten Benchmarks wie MMLU und HumanEval,[8] was auf eine grundlegende Messvalidität hindeutet.
5. Einordnung in den wissenschaftlichen und technologischen Kontext
Die dokumentierten Elo-Verschiebungen spiegeln breitere technologische Entwicklungen wider: Googles Mixture-of-Experts-Architektur (MoE), erweiterte Kontextfenster sowie verbesserte multimodale Verarbeitung. Die Dynamik des Wettbewerbs, mit mehrfachem Führungswechsel innerhalb kurzer Zeiträume, deutet darauf hin, dass kein einzelnes Unternehmen eine dauerhafte Dominanz bei LLM-Leistungsmetriken erlangt hat.
Quellenverzeichnis
[1]: Elo, Arpad E. (1978). The Rating of Chessplayers, Past and Present. Arco. ISBN 0-668-04721-6.
[2]: Zheng, Lianmin et al. (2023). „Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena“. LMSYS Blog, 3. Mai 2023. https://lmsys.org/blog/2023-05-03-arena/
[3]: Wikipedia contributors. „Large language model“. Wikipedia, The Free Encyclopedia. https://en.wikipedia.org/wiki/Large_language_model (abgerufen am 23. Februar 2026).
[4]: YouTube-Dokumentation: „Gemini 1.5 Pro vs. GPT-4o Benchmark Comparison“ (31. Juli 2024). https://www.youtube.com/watch?v=lUA9elNdpoY
[5]: LMSYS Chatbot Arena via X (ehemals Twitter) (November 2024).
https://twitter.com/lmarena_ai/status/1857110672565494098
[6]: HumansAreObsolete.com. „Google Gemini 3 Pro sets performance records in November 2025″ (November 2025). https://humansareobsolete.com/news/google-gemini-3-pro-performance-records-november-2025
[7]: LMSYS Chatbot Arena Leaderboard. OpenLM.ai. https://openlm.ai/chatbot-arena/ (abgerufen Ende Februar 2026).
[8]: Chen, Vincent X. et al. „EloBench: Elo-based Evaluation for LLMs“. GitHub Repository. https://github.com/v-xchen-v/EloBench
