Google hat mit Gemini von Beginn an auf ein multimodales KI-Modell gesetzt, das alle Inhaltstypen gleichwertig behandelt und daher große Stärken im Medienbereich aufbauen kann – und die zeigt man jetzt. Vor wenigen Tagen wurden mit den Bild- und Videogeneratoren rund um Imagen, Veo und Flow echte Meilensteine geschaffen, die sowohl die Bild-, als auch Video-, und Filmproduktion revolutionieren können.



Im Rahmen eines größeren funktionellen Updates für Gemini 2.5 hat Google vor wenigen Tagen die neuen Generationen von Imagen und Veo vorgestellt und zusätzlich noch das neue Tool Flow vorgestellt, mit dem sich die Stärken der beiden Hauptgeneratoren unter einem Dach vereinen. Hier findet ihr einen schnellen Überblick über die einzelnen Generatoren und deren Zusammenspiel, bei dem mittlerweile ein Rädchen ins andere greift.

Bilder mit Imagen erstellen

Der Bildgenerator Imagen hat schon eine lange Geschichte, aber erst seit der dritten und vor wenigen Tagen vorgestellten vierten Generation ist dieser ein wirklich starkes Paket. Mit Imagen können alle Nutzer vollkommen kostenlos beliebige Fotos erstellen, bei denen es nun auch in der Größe keine Grenzen mehr gibt. Google hat an der Gesamtkomposition und an den Details gearbeitet, sodass mit den richtigen Prompts mittlerweile sehr starke Ergebnisse erzielt werden. Vor der Konkurrenz muss man sich jetzt nicht mehr verstecken.

Videos mit Veo erstellen

Bildgeneratoren können mittlerweile viele Anbieter, aber die Videogenerierung gehört noch zur Königsdisziplin. Google bietet jetzt mit Veo 2 einen kostengünstigen und mit Veo 3 einen High-End-Videogenerator für alle Nutzer. Diese haben zuletzt einen ähnlichen Prozess wie Imagen durchlaufen, wobei man sich zuerst auf die Gesamtkomposition und jetzt die Details konzentriert. In der neuen Generation können Nutzer jetzt außerdem einzelne Elemente detaillierter beschreiben oder mit Referenzen versehen, Kamerapositionen festlegen und sogar Audiospuren von Hintergrundmusik über Geräusche bis zu Konversationen hinzufügen.

Filme mit Gemini Flow erstellen

Mit Flow hat Google ein ganz neues Tool vorgestellt, das aktuell über kein eigenes KI-Medienmodell verfügt, sondern auf Imagen und Veo aufbaut. Filmschaffende haben mit Flow die Möglichkeit, ganze Filme zu erstellen – und das bei Bedarf ohne jegliche Vorbereitung und rein auf Basis von Prompts. Den Anfang macht üblicherweise ein Prompt, in dem die grobe Handlung eingegeben werden kann – und dann darf Gemini bzw. Flow auf Basis von Imagen und Veo schon aktiv werden. Es wird eine Szenerie erstellt, die vom Nutzer angesehen und jederzeit bearbeitet werden kann.

Die Bearbeitung erfolgt ebenfalls per Prompt. Der Nutzer kann das Video an jeder beliebigen Stelle anhalten, seinen Wunsch eingeben und die KI wird diesen umsetzen und in den fertigen Film einbauen. Außerdem lassen sich Figuren austauschen, Hintergründe austauschen oder Objekte integrieren, die allesamt vorab hochgeladen werden oder mit Imagen erstellt werden können. Es kommt also Imagen zur Objekterstellung und Veo zur Videoerstellung zum Einsatz, wobei Flow diese beiden Tools praktisch fernbedient. Das ist ein wirklich beeindruckendes Produkt, schaut euch dazu auch einmal obiges Promovideo von Flow an.

Sowohl Imagen als auch Veo und Flow sollen sich noch in einer frühen Phase befinden, wobei bei Imagen und Veo kaum vorstellbar ist, wo die Reise eigentlich noch hingehen soll. Bei Flow sieht das schon anders aus, obwohl bei der aktuellen KI-Geschwindigkeit wohl keine Jahre mehr vergehen werden, bis wir den ersten vollständig KI-generierten Film im Kino sehen werden.

