xAI führt eine Funktion ein, mit der Nutzer ihre eigene Stimme klonen und in Text-to-Speech- sowie Voice-Agent-APIs verwenden können. Über eine neue Voice Library lassen sich alle Stimmen zentral verwalten. Die Technologie ermöglicht Anwendungen von personalisierten Kundenservice-Agenten bis zu barrierefreier Kommunikation für Menschen mit Sprachbehinderungen.
Grok ermöglicht Stimmenklone für KI-Agenten
Unsere Einordnung
Grok konkretisiert den Trend zum personalisierten KI-Audio: Was bislang generischen Robo-Stimmen vorbehalten war, wird zur markenspezifischen Erweiterung. Das ist relevant für Creator und Unternehmen, birgt aber auch erhebliche Missbrauchspotenziale bei Deepfakes – eine Verifizierung per Passphrase reicht längerfristig nicht aus.
Schlüsselfakten
- Stimmen können aus etwa einer Minute Audioaufnahme geklont werden
- Verarbeitung dauert unter zwei Minuten inklusive Authentifizierung
- Custom Voices funktionieren in allen Grok Text-to-Speech- und Voice-Agent-APIs
- Unterstützt sieben Sprachen: Englisch, Spanisch, Französisch, Deutsch, Chinesisch und Japanisch
- Einsatzbereiche: Brand Voice für Kundenservice, Video-Narration, Hörbücher, Charakter-Dialoge