Google hat gestern Abend wie erwartet neue Gemini-Modelle vorgestellt, die sich nicht nur auf den KI-ChatBot und dessen Funktionsumfang beziehen, sondern auch die starken visuellen Ableger weiter voranbringen. In diesen Tagen startet der neue Bildgenerator Imagen 4, der Videogenerator Veo 3 sowie das neue Film-Tool Flow und ein Update für das Generator-Tool Whisk.



Gemini ist von Beginn an als multimodales KI-Modell entwickelt worden, das keinen Unterschied zwischen den Eingabe- und Ausgabeformaten macht – egal ob Text, Audio, Bild, Video, Code oder eine sonstige Form. Dementsprechend bringt das KI-Modell große Stärken in diesen Bereichen mit, die mit schnellen Releases der diversen Tools immer weiter ausgebaut werden. Erst im Dezember wurden mit dem Start von Gemini 2.0 neue Versionen von Imagen und Veo sowie Whisk veröffentlicht und jetzt geht es in die nächste Runde.

Im Rahmen des Updates für Gemini 2.5 starten neue Generationen der beiden Bild- und Video-Tools Imagen und Veo sowie ein ganz neues Tool für Filmschaffende, das schon in der ersten Version sehr vielversprechend aussieht. Die Marschrichtung lautet, dass sowohl die inhaltliche Qualität als auch die darstellende Qualität gesteigert werden soll und die Nutzer durch noch mehr Parameter Anpassungsmöglichkeiten erhalten, um das perfekte Ergebnis zu bekommen.

Wir haben euch schon vor einigen Wochen das Bildgenerator-Tool Whisk vorgestellt, das jetzt nur ein kleines Update in Form von Qualitätsverbesserungen erhält, den Unterbau für Imagen 4 erhält und vermutlich schon bald in Gemini selbst aufgehen wird. Denn es dient eher als Brücke zwischen Text und Bild und weniger als eigenständiges Medien-Tool. Jetzt schauen wir uns an, was Imagen 4, Veo 3 und das neue Flow mit sich bringen.









Imagen 4

Imagen ist jetzt in der vierten Generation erschienen und legt den Fokus auf Geschwindigkeit und Präzision, sodass die Nutzer noch schneller zu ihren gewünschten Bildern kommen, die qualitativ vor allem im Detail nachgelegt haben. Während die vorherige Version sich auf die Gesamtkomposition konzentrierte und dafür gesorgt hat, dass die Szenerien ansprechender werden, geht es jetzt wieder tiefer ins Detail – das Stichwort Präzision wurde ja bereits genannt.

Selbst kleinste Strukturen in Stoffen, Wassertropfen oder das Fell von Tieren werden außergewöhnlich detailreich dargestellt und das Modell überzeugt sowohl bei fotorealistischen als auch bei abstrakten Stilen. Imagen 4 kann außerdem erstmals Bilder in verschiedenen Seitenverhältnissen und mit einer Auflösung von bis zu 2K erstellen – bei Print-Dokumenten und Präsentationen liegt die erreichbare Auflösung sogar noch höher. Auch bei Rechtschreibung und Typografie wurden große Fortschritte gemacht, sodass es sich hervorragend für die Gestaltung eigener Grußkarten, Poster oder sogar Comics eignet.

Imagen 4 ist ab sofort für alle Nutzer von Gemini 2.5 verfügbar.

Veo 3 & Veo 2

Auch Veo 2 hatte sich zuletzt auf die Gesamtkomposition konzentriert und setzt diesen Weg weiter fort. Dafür ermöglicht man es den Nutzern jetzt, Referenzbilder für Charaktere, Objekte und Szenerien hochzuladen, ermöglicht Angaben zur gewünschten Kamerasteuerung, kann Objekte entfernen oder hinzufügen oder gar Bilder in ein anderes Format bringen. Letztes kann etwa ein Hochformat in das Querformat umwandeln, wobei die nicht verfügbaren Bildbestandteile intelligent ersetzt werden. Veo 2 steht ab sofort für alle Nutzer zur Verfügung.

Mit Veo 3 hat man parallel dazu auch schon die nächste Generation vorgestellt, die auf Veo 2 aufbaut und zusätzlich die Qualität steigern und eine ganz neue Ebene mitbringen soll – nämlich Ton. Veo verabschiedet sich vom Stummfilm und kann sowohl Musik als auch Geräusche und Stimmen in die Videos bringen. Wer das nutzen möchte, muss allerdings tief in die Tasche greifen, denn es steht aktuell nur im Rahmen des Google One AI Ultra-Abos für 249,99 Dollar pro Monat zur Verfügung.









Flow

Mit Flow hat man jetzt noch einmal ein ganz neues Tool vorgestellt, das auf Veo und Imagen aufbaut. Mit dem KI-Filmtool, das Google gemeinsam mit Filmschaffenden entwickelt hat, lassen sich ganze Geschichten erzählen, längere Videos erstellen und tatsächlich auch Kurzfilme basteln. Man steht noch ganz am Anfang, dürfte aber sicherlich das Ziel haben, eines Tages tatsächlich ganze Filme per Prompt zu generieren. Erst einmal geht es aber darum, sehr kurze Kinoerlebnisse zu schaffen.

Flow ist maßgeschneidert für Veo, Googles hochmodernes generatives Videomodell, und bietet außergewöhnliche Prompt-Einhaltung und atemberaubende Kinoergebnisse, die sich durch Physik und Realismus auszeichnen. Im Hintergrund sorgen Gemini-Modelle für intuitives Prompting, sodass sich alle Wünsche in Alltagssprache beschreiben lassen. Es lassen sich alle Veo-Möglichkeiten nutzen, also auch eigene Refenzen hochladen (siehe Veo 2 oben).

Der Cloud an Flow: Sobald ihr ein Motiv oder eine ganze Szene erstellt habt, könnt ihr diese jederzeit anhalten, Gemini weitere Anweisungen geben und diese Szene anpassen lassen. Schaut euch unbedingt einmal obiges Video an, das wirklich sehr beeindruckend ist.

