📢 Pressemitteilung

OpenAI verbessert Sprachagenten mit neuem Reasoning

15. Mai 2026·Quelle: The Rundown AI

Nach Angaben von The Rundown AI hat OpenAI drei neue Sprachmodelle vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Das Flaggschiff-Modell Realtime-2 bringt GPT-5-ähnliches Reasoning in Live-Gespräche, kann mehrere Tools gleichzeitig nutzen und "denkt dabei laut nach". Bei einem Standard-Benchmark für Audio-Reasoning erreichte Realtime-2 96,6% Genauigkeit gegenüber 81,4% beim Vorgänger – eine erhebliche Steigerung. Zusätzlich lancierte OpenAI einen Live-Übersetzer für über 70 Sprachen und ein Streaming-Transkriptionsmodell.

Die neuen Modelle markieren einen Wendepunkt: Voice-Agenten können nun komplexe Workflows ohne nervige Unterbrechungen durchführen und nähern sich natürlicher Konversation an. Das ist relevant für die KI-Industrie, die bisher auf textbasierte Agenten fokussiert – die nächste Welle wird gesprochene Befehle verstehen und verarbeiten müssen.

Unsere Einordnung

Das ist ein echtes Upgrade für Voice-KI: Wenn Sprachagenten jetzt in Echtzeit komplexe Aufgaben mit Reasoning lösen können, nähert sich die Mensch-Maschine-Interaktion endlich an natürliche Konversation an – nicht nur simuliert, sondern funktional. Das Signal ist klar: Text war nur der Anfang. Für KI-Entwickler wird Voice-First bald nicht mehr optional sein.

Schlüsselfakten

  • OpenAI führt GPT-Realtime-2 mit GPT-5-ähnlichem Reasoning für Live-Sprache ein
  • 96,6% Genauigkeit auf Big Bench Audio – 15 Punkte über dem Vorgänger
  • Realtime-2 nutzt mehrere Tools gleichzeitig und denkt während des Sprechens
  • Zillow, Priceline und Deutsche Telekom bauen bereits auf den neuen Modellen auf

Artikel teilen