Nach Angaben von The Rundown AI hat OpenAI drei neue Sprachmodelle vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Das Flaggschiff-Modell Realtime-2 bringt GPT-5-ähnliches Reasoning in Live-Gespräche, kann mehrere Tools gleichzeitig nutzen und "denkt dabei laut nach". Bei einem Standard-Benchmark für Audio-Reasoning erreichte Realtime-2 96,6% Genauigkeit gegenüber 81,4% beim Vorgänger – eine erhebliche Steigerung. Zusätzlich lancierte OpenAI einen Live-Übersetzer für über 70 Sprachen und ein Streaming-Transkriptionsmodell.
Die neuen Modelle markieren einen Wendepunkt: Voice-Agenten können nun komplexe Workflows ohne nervige Unterbrechungen durchführen und nähern sich natürlicher Konversation an. Das ist relevant für die KI-Industrie, die bisher auf textbasierte Agenten fokussiert – die nächste Welle wird gesprochene Befehle verstehen und verarbeiten müssen.