Googles KI-Plattform Gemini stärkt die mediale Komponente und will mit den starken neuen Bildgeneratoren und Videogeneratoren zeigen, welche Vorzüge das multimodale Modell mit sich bringt. Aber auch der Zugang zu diesen Bildgeneratoren soll vereinfacht und mit neuen Tools allen Nutzern erleichtert werden. Mit dem neuen Werkzeug Whisk lassen sich neue Bilder sehr einfach erstellen und anpassen, ohne selbst am Prompt basteln zu mischen.



Wir haben euch Googles neue Mediengeneratoren bereits ausführlich vorgestellt, die beeindruckende Ergebnisse liefern und die Stärken von Gemini in diesem Bereich unterstreichen sollen. Mit dem Bildgenerator Imagen 3 lassen sich ganz neue Qualitätsstufen erreichen und der Videogenerator Veo 2 hat vor allem im Bereich der Bildkomposition sowie natürlich der Qualität deutlich nachgelegt. Beide haben sie gemeinsam, dass sie auf Basis eines vom Nutzer eingegebenen Prompts das gewünschte Medium erstellen.

Parallel zu Imagen 3 und Veo 2 hat Google noch ein drittes Tool vorgestellt, das zunächst etwas unter dem Radar geflogen ist, aber sehr interessant ist: Mit dem experimentellen Tool Whisk will Google es den Nutzern auch ganz ohne umfangreichen Prompt ermöglichen, neue Bilder zu erstellen. Denn obwohl alle Türen offenstehen, ist es oftmals gar nicht so leicht, einen guten Prompt zu finden oder sich ein nicht-existierendes Bild soweit vorzustellen, dass die KI auch tatsächlich das liefert, was gewünscht ist.

Mit Whisk erhalten Nutzer die Möglichkeit, eines oder mehrere Bilder hochzuladen und aus diesen ein ganz neues Werk zu formen. Dabei wird Whisk die wichtigsten Elemente der Bilder erkennen, diese extrahieren und verstehen, mit den anderen Motiven oder Wünschen kombinieren und anschließend ein ganz neues Bild erstellen. Trotz Zusammenführung kann das Ergebnis vollkommen anders aussehen, als wenn man tatsächlich nur zwei Bilder miteinander kombinieren würde, schaut euch das einmal in der folgenden Galerie sowie im Video an.

















So funktioniert Whisk

Der Ablauf erscheint im Hintergrund etwas umständlich, aber ist auch das vielversprechende Konzept von Whisk: Denn es nicht das vom Nutzer hochgeladene Foto verwendet, sondern nur eine von der KI erstellte Beschreibung. Das Bild oder die Bilder werden durch Gemini gejagt, von der Gemini-Bilderkennung analysiert und beschrieben und diese Beschreibung dann wiederum für den Prompt verwendet. Das bedeutet, dass mit zunehmender Prompt-Länge und Qualität der Bildanalyse auch das Ergebnis besser wird. Es ist also eine Verwandlung Bild-Text-Bild.

Da Whisk nur wenige Schlüsselmerkmale aus dem Bild extrahiert, können die generierten Bilder von den Erwartungen abweichen. Das generierte Motiv kann beispielsweise eine andere Größe, ein anderes Gewicht, eine andere Frisur oder einen anderen Hautton haben. Die Entwickler wissen, dass diese Merkmale für das eigene Projekt entscheidend sein können und Whisk möglicherweise nicht das gewünschte Ergebnis liefert. Daher kann die zugrunde liegenden Eingabeaufforderungen jederzeit angezeigt und bearbeitet werden.

Damit Whisk auch einen Lerneffekt mitbringt, können die Nutzer den verwendeten Prompt ablesen und nach der Erstellung bei Bedarf verändern. So können sich immer wieder neue Bilder ergeben oder die bereits erstellten sowohl grob als auch im kleineren Stil angepasst werden. Und so folgt Google dem Weg weiter, die Prompts zwar immer mächtiger zu machen, diese aber gleichzeitig langfristig nicht mehr so häufig zu benötigen. Whisk ist der erste Schritt auf dem Weg zu einer grafischen Benutzeroberfläche für KI-Prompts.

[Google-Blog]

