Elo-basierte Leistungsvergleiche großer Sprachmodelle

Wann hat Google OpenAI im Elo-Ranking überholt?

Seit 2024 werden große Sprachmodelle (Large Language Models, LLMs) zunehmend in Community-basierten Benchmark-Plattformen mithilfe des Elo-Ratingsystems verglichen. Dieser Artikel dokumentiert die wichtigsten Meilensteine im Leistungsvergleich von Google Gemini und OpenAIs GPT-Modellen auf Basis von veröffentlichten Elo-Daten, insbesondere aus der LMSYS Chatbot Arena.

1. Methodischer Hintergrund: Das Elo-Ratingsystem für LLMs

Das Elo-Ratingsystem wurde ursprünglich 1959 vom Physiker Árpád Élő zur Bewertung relativer Spielstärken im Schach entwickelt.^[1] Die Grundformel lautet:

R' = R + K × (S − E)

Dabei bezeichnet R die bisherige Elo-Zahl, K den Anpassungsfaktor (typischerweise 32), S das Ergebnis (1 = Sieg, 0,5 = Unentschieden, 0 = Niederlage) und E die erwartete Gewinnwahrscheinlichkeit. Bei einem Elo-Vorsprung von 100 Punkten beträgt die statistische Gewinnwahrscheinlichkeit etwa 64 %.

Die LMSYS Chatbot Arena, ein offenes Benchmark-System der UC Berkeley, überträgt dieses Prinzip auf LLMs: Nutzer stellen anonymisierte Modellantworten gegenüber und wählen den bevorzugten Beitrag. Aus Millionen solcher paarweisen Vergleiche errechnet sich ein dynamisches Elo-Ranking.^[2] Das Verfahren gilt als praxisnäher als rein automatisierte Benchmarks, da es reale Nutzerpräferenzen abbildet.

2. Chronologie der Elo-Meilensteine

2.1 Januar 2024: Gemini Pro überholt GPT-4

Am 26. Januar 2024 übertraf Google Gemini Pro erstmals OpenAIs GPT-4 in Elo-basierten Leistungsvergleichen. Gemini 1.0 Pro erzielte dabei eine Elo-Wertung von ca. 1.250–1.280, während GPT-4 bei ungefähr 1.240 lag. Dieser Abstand galt als statistisch signifikant, wenn auch nicht als eindeutige Dominanz. Als Ursache für den Leistungssprung wird Googles Mixture-of-Experts-Architektur (MoE) diskutiert, die eine effizientere Skalierung ermöglicht als dicht verknüpfte Transformer-Architekturen.^[3]

2.2 Sommer 2024: Gemini 1.5 Pro und der Aufstieg von GPT-4o

Im Februar 2024 veröffentlichte OpenAI GPT-4o, das mit einer Elo-Wertung von über 1.300 kurzfristig die Spitzenposition einnahm. Google antwortete mit Gemini 1.5 Pro (Februar/Mai 2024), das durch einen Kontextfenster von bis zu einer Million Token und verbesserte Reasoning-Fähigkeiten charakterisiert ist. Etwa zum 31. Juli 2024 übertraf Gemini 1.5 Pro Experimental GPT-4o erstmals klar in der LMSYS Arena, mit besonders deutlichen Vorteilen in den Kategorien Coding, Mathematik und visuelle Verarbeitung.^[4]

2.3 November 2024: Rückeroberung der Spitzenposition

Im November 2024 (ab dem 14. November, Modellbezeichnung Gemini-Exp-1114) übernahm Google erneut den ersten Rang in der LMSYS Arena, nachdem OpenAI mit dem Modell o1-Preview zwischenzeitlich aufgeschlossen hatte.^[5]

2.4 Ende 2025: Erstmaliges Überschreiten der 1500-Elo-Schwelle

Im November 2025 überschritt Gemini 3 Pro als erstes öffentlich dokumentiertes Modell die Elo-Schwelle von 1.500 Punkten (gemeldeter Wert: 1.501). Dies wurde von mehreren Technologiepublikationen als Meilenstein der KI-Leistungsentwicklung bewertet.^[6] Gemäß dem Vellum AI Leaderboard erzielte Gemini 3 Pro in etwa 80 % der Kategorien höhere Bewertungen als GPT-4o.

2.5 Stand Februar 2026

Gemäß dem offiziellen LMSYS Chatbot Arena Leaderboard (openlm.ai/chatbot-arena/) führt Gemini-3.1-Pro die Rangliste Ende Februar 2026 mit einem Arena-Elo von 1.505 an.^[7] Direkt dahinter folgt Claude Opus 4.6 Thinking (Anthropic) mit 1.503 Elo. Grok-4.1-Thinking (xAI) belegt mit 1.482 Elo den fünften Rang. Die Spitzengruppe wird damit maßgeblich durch Thinking-Varianten dominiert – Modelle, die explizite mehrstufige Reasoning-Prozesse vor der finalen Antwortgenerierung nutzen. Die Rangliste unterliegt wöchentlichen Schwankungen durch neue Modellversionen und -varianten.

3. Tabellarische Übersicht der wichtigsten Meilensteine

Meilenstein	Datum	Modell	Elo (ca.)	Quelle
Erstes Überholen von GPT-4	26. Januar 2024	Gemini 1.0 Pro	~1.280	LMSYS Arena / Wikipedia LLM-Artikel
Überholung von GPT-4o	ca. 31. Juli 2024	Gemini 1.5 Pro Experimental	~1.310	LMSYS Arena
Rückeroberung Platz 1	14. November 2024	Gemini-Exp-1114	~1.330	LMSYS Arena
Erstmaliges Überschreiten von Elo 1500	November 2025	Gemini 3 Pro	1.501	Vellum AI Leaderboard / HumansAreObsolete.com
Spitzenposition (Platz 1)	Ende Februar 2026	Gemini-3.1-Pro	1.505	LMSYS Chatbot Arena (openlm.ai)
Platz 2	Ende Februar 2026	Claude Opus 4.6 Thinking	1.503	LMSYS Chatbot Arena (openlm.ai)
Platz 5	Ende Februar 2026	Grok-4.1-Thinking	1.482	LMSYS Chatbot Arena (openlm.ai)

4. Einschränkungen und Kritik des Elo-Ansatzes

Das Elo-System in LLM-Benchmarks weist methodische Einschränkungen auf, die bei der Interpretation der Ergebnisse zu beachten sind:

Sprachliche Verzerrung: Die Mehrheit der Bewertungsinteraktionen erfolgt auf Englisch, was zu einer potenziellen Benachteiligung nicht-englischer Stärken der Modelle führt.

Popularitätsbias: Intensiv beworbene Modelle können temporär höhere Bewertungen erzielen, wenn ein erhöhtes Nutzerinteresse zu nicht-repräsentativen Votings führt.

Stichprobenabhängigkeit: Die Community der Arena-Nutzer entspricht nicht zwingend dem Querschnitt aller LLM-Anwendungsfelder.

Trotz dieser Einschränkungen korreliert das Arena-Ranking empirisch gut mit etablierten Benchmarks wie MMLU und HumanEval,^[8] was auf eine grundlegende Messvalidität hindeutet.

5. Einordnung in den wissenschaftlichen und technologischen Kontext

Die dokumentierten Elo-Verschiebungen spiegeln breitere technologische Entwicklungen wider: Googles Mixture-of-Experts-Architektur (MoE), erweiterte Kontextfenster sowie verbesserte multimodale Verarbeitung. Die Dynamik des Wettbewerbs, mit mehrfachem Führungswechsel innerhalb kurzer Zeiträume, deutet darauf hin, dass kein einzelnes Unternehmen eine dauerhafte Dominanz bei LLM-Leistungsmetriken erlangt hat.

Quellenverzeichnis

[1]: Elo, Arpad E. (1978). The Rating of Chessplayers, Past and Present. Arco. ISBN 0-668-04721-6.

[2]: Zheng, Lianmin et al. (2023). „Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena“. LMSYS Blog, 3. Mai 2023. https://lmsys.org/blog/2023-05-03-arena/

[3]: Wikipedia contributors. „Large language model“. Wikipedia, The Free Encyclopedia. https://en.wikipedia.org/wiki/Large_language_model (abgerufen am 23. Februar 2026).

[4]: YouTube-Dokumentation: „Gemini 1.5 Pro vs. GPT-4o Benchmark Comparison“ (31. Juli 2024). https://www.youtube.com/watch?v=lUA9elNdpoY

[5]: LMSYS Chatbot Arena via X (ehemals Twitter) (November 2024).
https://twitter.com/lmarena_ai/status/1857110672565494098

[6]: HumansAreObsolete.com. „Google Gemini 3 Pro sets performance records in November 2025″ (November 2025). https://humansareobsolete.com/news/google-gemini-3-pro-performance-records-november-2025

[7]: LMSYS Chatbot Arena Leaderboard. OpenLM.ai. https://openlm.ai/chatbot-arena/ (abgerufen Ende Februar 2026).

[8]: Chen, Vincent X. et al. „EloBench: Elo-based Evaluation for LLMs“. GitHub Repository. https://github.com/v-xchen-v/EloBench