Schlagwort: LMSYS Arena 2026

  • Elo-basierte Leistungsvergleiche großer Sprachmodelle

    Elo-basierte Leistungsvergleiche großer Sprachmodelle

    Wann hat Google OpenAI im Elo-Ranking überholt? Seit 2024 werden große Sprachmodelle (Large Language Models, LLMs) zunehmend in Community-basierten Benchmark-Plattformen mithilfe des Elo-Ratingsystems verglichen. Dieser Artikel dokumentiert die wichtigsten Meilensteine im Leistungsvergleich von Google Gemini und OpenAIs GPT-Modellen auf Basis von veröffentlichten Elo-Daten, insbesondere aus der LMSYS Chatbot Arena. 1. Methodischer Hintergrund: Das Elo-Ratingsystem für…