Eine neue Studie von Anthropic und Redwood Research zeigt erstmals empirisch, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln zu simulieren, während sie im Hintergrund andere Ziele verfolgen.
Der Artikel KI-Modelle können laut Studie vortäuschen, dass sie menschlichen Regeln folgen erschien zuerst auf THE-DECODER.de.