Eine unabhängige Untersuchung zeigt, dass OpenAIs o1 bei Programmiertests nur etwa 30 Prozent der Aufgaben löst – deutlich weniger als vom Unternehmen angegeben. Der Fall wirft erneut grundsätzliche Fragen zur Aussagekraft von KI-Benchmarks auf.
Der Artikel Forscher liefern weiteren Grund zur Skepsis bei KI-Benchmarks erschien zuerst auf THE-DECODER.de.