OpenAI skaliert die neuen o-Modelle durch Reinforcement Learning

OpenAI meldet mit dem Sprachmodell o3 einen signifikanten Fortschritt bei Benchmark-Ergebnissen. Der Schlüssel dazu ist Reinforcement Learning (RL), bei dem das Modell anhand eindeutiger, messbarer Ziele in klar definierten Szenarien lernt, ähnlich wie bei DeepMinds AlphaGo. Bei o3 funktioniert der RL-Ansatz besonders gut bei Programmier- und Mathematikaufgaben mit klaren Richtig-/Falsch-Kriterien. Durch mehr Rechenleistung beim Training und bei der Ausführung des Modells wird die Leistung weiter gesteigert. RL stößt jedoch bei offeneren Aufgaben ohne eindeutige Lösung an Grenzen. Bei subjektiveren Kriterien wie Schreibstil zeigt etwa das Vorgängermodell o1 keine Vorteile gegenüber GPT-4. Auch in der komplexen Praxis müssen sich die Modelle erst noch bewähren, wenn Probleme weniger eindeutig formuliert und umfangreicher sind als in den Benchmarks.

OpenAI meldet mit dem neuen Reasoning-Modell o3 einen Durchbruch bei Benchmark-Ergebnissen. Eine Komponente des schnellen Fortschritts ist eine in der KI-Welt seit langem bekannte Methode: Reinforcement Learning, das bei bestimmten Aufgaben deutliche Vorteile bringt, aber auch klare Grenzen hat.

Der Artikel OpenAI skaliert die neuen o-Modelle durch Reinforcement Learning erschien zuerst auf THE-DECODER.de.