News nicht gefunden

OpenAI verbessert Sprachagenten mit neuem Reasoning

15. Mai 2026·Quelle: The Rundown AI

Nach Angaben von The Rundown AI hat OpenAI drei neue Sprachmodelle vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Das Flaggschiff-Modell Realtime-2 bringt GPT-5-ähnliches Reasoning in Live-Gespräche, kann mehrere Tools gleichzeitig nutzen und "denkt dabei laut nach". Bei einem Standard-Benchmark für Audio-Reasoning erreichte Realtime-2 96,6% Genauigkeit gegenüber 81,4% beim Vorgänger – eine erhebliche Steigerung. Zusätzlich lancierte OpenAI einen Live-Übersetzer für über 70 Sprachen und ein Streaming-Transkriptionsmodell.

Die neuen Modelle markieren einen Wendepunkt: Voice-Agenten können nun komplexe Workflows ohne nervige Unterbrechungen durchführen und nähern sich natürlicher Konversation an. Das ist relevant für die KI-Industrie, die bisher auf textbasierte Agenten fokussiert – die nächste Welle wird gesprochene Befehle verstehen und verarbeiten müssen.

Unsere Einordnung

Das ist ein echtes Upgrade für Voice-KI: Wenn Sprachagenten jetzt in Echtzeit komplexe Aufgaben mit Reasoning lösen können, nähert sich die Mensch-Maschine-Interaktion endlich an natürliche Konversation an – nicht nur simuliert, sondern funktional. Das Signal ist klar: Text war nur der Anfang. Für KI-Entwickler wird Voice-First bald nicht mehr optional sein.

Schlüsselfakten

OpenAI führt GPT-Realtime-2 mit GPT-5-ähnlichem Reasoning für Live-Sprache ein
96,6% Genauigkeit auf Big Bench Audio – 15 Punkte über dem Vorgänger
Realtime-2 nutzt mehrere Tools gleichzeitig und denkt während des Sprechens
Zillow, Priceline und Deutsche Telekom bauen bereits auf den neuen Modellen auf

OpenAI verbessert Sprachagenten mit neuem Reasoning

Unsere Einordnung

Schlüsselfakten

Artikel teilen

Weitere News