KI-Modelle können laut Studie vortäuschen, dass sie menschlichen Regeln folgen

Dez. 21, 2024

—

von

abstract illustration of a claude logo, looks like a person's head, wearing detective hat and sunglasses

Eine neue Studie von Anthropic und Redwood Research zeigt erstmals empirisch, dass große Sprachmodelle wie Claude in der Lage sind, die Einhaltung von Sicherheitsregeln zu simulieren, während sie im Hintergrund andere Ziele verfolgen.

Der Artikel KI-Modelle können laut Studie vortäuschen, dass sie menschlichen Regeln folgen erschien zuerst auf THE-DECODER.de.