Google startet mit dem KI-Modell Gemini jetzt auch im Bereich der Sprachausgabe in die nächste Generation – und die bringt neben einer verbesserten Qualität eine ganz neue Möglichkeit mit sich: Durch neue Audiotags ist es möglich, der Sprachausgabe Gefühlslagen mit auf den Weg zu geben, die beim Vorlesen der Texte zum Einsatz kommen. In einem Beispielvideo könnt ihr euch das anhören.
Sowohl die Spracherkennung als auch die Sprachausgabe sind schon seit den Zeiten der smarten Sprachassistenten auf einem ausreichenden Level, um zufriedenstellend kommunizieren zu können. Dennoch geht die Entwicklung natürlich weiter, sodass heute ganz andere Ansprüche gestellt werden. Google legt jetzt mit der neuen KI-Sprachausgabe GEmini 3.1 Flash TTS nach, die laut neutralen Tests die derzeit zweitbeste am Markt ist.
Qualitativ ist die Sprachausgabe mittlerweile auf einem hohen Level und dennoch lässt sich selbst bei optimalen Formulierungen schnell erkennen, dass eine Roboterstimme zu hören ist. Das könnte sich mit den neuen Audiotags ändern, die jetzt erstmals unterstützt werden. Dabei handelt es sich gewissermaßen um Metadaten für die Sprachausgabe, mit denen die Stimme beschrieben werden kann, die Stimmlage, gewisse Gefühle und mehr.
Im obigen Video könnt ihr sehen, dass die Gemini-KI durch die Gefühlslagen selbst einen Wetterbericht einigermaßen interessant gestalten kann. Mal aufgeregt, mal sehr traurig und weinend, etwas außer Atem, begeistert, sarkastisch und mehr. Dieser Kontextaufbau hilft den Charakteren, authentisch zu bleiben und über mehrere Szenen hinweg natürlich aufeinander zu reagieren.
Mit dieser neuen Technologie lassen sich individuelle Audioprofile für die Charaktere festlegen und auch Regieanweisungen integrieren, um Tempo, Tonfall und Akzent anzupassen. Mithilfe von Inline-Tags können Sprecher diese übergeordneten Einstellungen jederzeit ändern und so den Ausdruck selbst mitten im Satz anpassen.
» Gemini Robotics: Wann kommen die ersten KI-Roboter? Google Deepmind macht große Fortschritte (Video)
» Gemini: Google startet neue Desktop-App für macOS – bringt den KI-ChatBot erstmals auf den Desktop
| # | Vorschau | Produkt | Preis | |
|---|---|---|---|---|
| 1 |
|
soundcore by Anker P20i Kabellose Bluetooth Kopfhörer in-Ear, 10mm Treiber, Bluetooth... | 24,99 EUR 19,99 EUR | Bei Amazon kaufen |
| 2 |
|
soundcore by Anker Q20i kabelloser Bluetooth Over-Ear-Kopfhörer mit Hybrid Active Noise Cancelling... | 49,99 EUR 31,99 EUR | Bei Amazon kaufen |
| 3 |
|
wegear Hybrid Active Noise Cancelling Kopfhörer, Wireless ANC Bluetooth 5.4 Over Ear Kopfhörer... | 86,51 EUR | Bei Amazon kaufen |
| 4 |
|
Sony WH-CH520 Kabellose Bluetooth-Kopfhörer - bis zu 50 Stunden Akkulaufzeit mit... |
28,49 EUR
24,99 EUR |
Bei Amazon kaufen |
Letzte Aktualisierung am 23.03.2026 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.