Nach Berichten von Ben's Bites hat Anthropic sein neues Sprachmodell Claude Mythos entwickelt, das erhebliche Leistungssteigerungen zeigt, aber nicht öffentlich veröffentlicht wird. Das Modell ist außergewöhnlich gut darin, Softwaresicherheitslücken zu finden und auszunutzen – bei Firefox-Exploits gelangen ihm 181 funktionierende Anschläge im Vergleich zu 2 bei Opus. Statt einer öffentlichen Freigabe verfolgt Anthropic den Sicherheitsansatz "Project Glasswing": 12 ausgewählte Unternehmen erhalten Zugriff auf eine Preview-Version, um kritische Software zu testen. Anthropic stellt dafür 100 Millionen Dollar in Model-Credits und 4 Millionen Dollar für Open-Source-Sicherheitsorganisationen bereit.
Dies verdeutlicht ein zentrales Dilemma der KI-Branche: Leistungssprünge bei Modellen bringen gleichzeitig Risiken mit sich, die verantwortungsvolles Handeln erfordern. Anthropic zeigt hier einen pragmatischen Mittelweg zwischen Innovation und Sicherheit auf.