Anthropic hält Claude Mythos zurück – zu gefährlich

12. April 2026·Quelle: Ben's Bites Newsletter

Nach Berichten von Ben's Bites hat Anthropic sein neues Sprachmodell Claude Mythos entwickelt, das erhebliche Leistungssteigerungen zeigt, aber nicht öffentlich veröffentlicht wird. Das Modell ist außergewöhnlich gut darin, Softwaresicherheitslücken zu finden und auszunutzen – bei Firefox-Exploits gelangen ihm 181 funktionierende Anschläge im Vergleich zu 2 bei Opus. Statt einer öffentlichen Freigabe verfolgt Anthropic den Sicherheitsansatz "Project Glasswing": 12 ausgewählte Unternehmen erhalten Zugriff auf eine Preview-Version, um kritische Software zu testen. Anthropic stellt dafür 100 Millionen Dollar in Model-Credits und 4 Millionen Dollar für Open-Source-Sicherheitsorganisationen bereit.

Dies verdeutlicht ein zentrales Dilemma der KI-Branche: Leistungssprünge bei Modellen bringen gleichzeitig Risiken mit sich, die verantwortungsvolles Handeln erfordern. Anthropic zeigt hier einen pragmatischen Mittelweg zwischen Innovation und Sicherheit auf.

Unsere Einordnung

Anthropic demonstriert verantwortungsvolle KI-Governance unter Druck – ein Modell, das zu mächtig für unkontrollierte Freigabe ist, wird gezielt für Sicherheitsforschung eingesetzt. Das ist kein Rückschlag, sondern ein reifes Risikomanagementsignal, das andere Labore studieren sollten. Gleichzeitig zeigt sich: Asymmetrische Capabilities werden zur neuen Norm in der Frontier-KI.

Schlüsselfakten

Claude Mythos erreicht 77,8% auf SWE-bench Pro (vs. 53,4% bei Opus 4.6)
Modell findet 181 funktionierende Firefox-Exploits vs. 2 bei Opus
Anthropic startet 'Project Glasswing' mit 12 Partnerfirmen statt öffentlicher Veröffentlichung
$100M Model Credits + $4M Spenden für Open-Source-Sicherheit

Anthropic hält Claude Mythos zurück – zu gefährlich

Unsere Einordnung

Schlüsselfakten

Artikel teilen

Weitere News