Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks

Jan. 6, 2025

—

von

Eine unabhängige Untersuchung zeigt, dass OpenAIs o1 bei Programmiertests nur etwa 30 Prozent der Aufgaben löst – deutlich weniger als vom Unternehmen angegeben. Der Fall wirft erneut grundsätzliche Fragen zur Aussagekraft von KI-Benchmarks auf.

Der Artikel Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks erschien zuerst auf THE-DECODER.de.