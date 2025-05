Googles KI-Modell Gemini besitzt seit einiger Zeit einen eigenen Videogenerator, der in dieser Woche als Veo 3 in einer neuen Generation erschienen ist. Die dritte Generation setzt auf dem weiterhin verfügbaren Vorgänger auf und hält neben dessen Verbesserungen auch einen großen Schritt bereit, der über die Qualitätssteigerungen hinausgeht: Denn erstmals lassen sich Videos mit Ton oder gar Dialogen erzeugen.



Wir haben euch bereits die starken Verbesserungen für Gemini Veo 2 vorgestellt, die allein schon eine neue Generation füllen könnten – dies aber zurecht nicht tun. Mehr dazu am Ende des Artikels. Am Dienstag hat Google das neue Veo 3 vorgestellt, das das Tool zur KI-Videoerstellung in die dritte Generation bringt. Natürlich gibt es Verbesserungen bei der Gesamtqualität, aber diese werden im Einzelnen nicht angesprochen und sind wohl nicht so deutlich sichtbar.

Das große Highlight von Veo 3 ist es, dass die Nutzer erstmals keine Stummfilme mehr erhalten, sondern Videos inklusive Ton generieren können. Das mag wie eine nette Verbesserung klingen, ist aber tatsächlich ein gigantischer Schritt, vergleichbar mit dem damaligen Übergang von der Stummfilm-Ära in den Tonfilm. Denn kurze Videos ohne Ton sind eben eine „Animation“, während der Ton eine ganz neue Ebene dazu bringt und dafür sorgt, dass die Videos auch als solche wahrgenommen werden.

Die Tonspur besteht aber nicht nur aus Musik, sondern kann sehr vielfältig sein. Es gibt Hintergrundgeräusche, Hauptgeräusche, das Zwischen von Vögeln im Park und selbst Dialoge zwischen Figuren sind möglich. Also ganz so, als hätte man tatsächlich seine Videokamera inklusive Mikrofon auf die Szenerie gerichtet und diese festgehalten. Schaut euch dazu einmal die folgenden Beispielvideos an.

















Ich denke, das ist wirklich ein enorm großer Schritt, den Gemini Veo hier gemacht hat. Natürlich gibt es Optimierungspotenzial, aber für die erste Generation sind das durchaus vorzeigbare Ergebnisse. Gemini legt aber nicht nur die Tonspur über das Video, sondern hat durch das multimodale Verständnis die Möglichkeit, diese natürlich einzubetten. So gibt es verschiedene Tonlagen, Überlagerungen, unterschiedliche Lautstärken und mehr. Um ein Tonvideo zu erstellen, müsst ihr dies Gemini einfach mitteilen oder gebt bei Bedarf eine kurze Geschichte in den Prompt ein.

Ein weiteres Highlight ist es, dass Gemini bei Dialogen auf eine Lippensynchronität achtet. In Videos mit einer Länge von wenigen Sekunden mag das keine große Rolle spielen, aber bei etwas längeren Szenen oder dem Fokus auf einen Darsteller ist das ein wichtiger Punkt, um den Realismus der gesamten Szene zu steigern. Gemeinsam mit den Verbesserungen von Veo 2 und Imagen 4 ergibt sich daraus eine ganz neue virtuelle KI-Realität, die in den Videos verwendet werden kann.

Leider werden wir das neue Modell so schnell nicht ausprobieren können, denn weil es wohl extrem viel Rechenpower benötigt, stellt Google dieses vorerst nur für Abonnenten von Google One AI Ultra für 249,99 Dollar pro Monat zur Verfügung. Spätestens mit Erscheinen von Veo 4 gegen Ende des Jahres wird man das Modell aber vermutlich zu den normalen Nutzern durchreichen können. Und das ist dann auch der Grund, warum Veo 2 weiter verbessert wurde, um auch den Gratis-Nutzern viele neue Möglichkeiten zu bringen.

[Google-Blog]

Letzte Aktualisierung am 2025-05-24 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.