Google setzt bei der KI-Plattform Gemini verstärkt auf die mediale Komponente und will es den Nutzern so leicht wie möglich machen, Fotos und Videos zu erzeugen. Doch weil es gar nicht so einfach ist, den passenden Prompt zu finden und diesen optimal zu formulieren, gibt es seit einiger Zeit ein starkes Tool, das diesen wichtigen Schritt erleichtern soll. Mit Whisk lassen sich neue Bilder sehr einfach erstellen und anpassen, ohne selbst am Prompt feilen zu müssen.



In dieser Woche hat Google gleich drei neue Mediengeneratoren angekündigt, die wir euch bereits ausführlich vorgestellt haben: Mit dem Bildgenerator Imagen 4 könnt ihr beliebige Motive erstellen, mit dem Videogenerator Veo 2 und Veo 3 lassen sich Szenen erzeugen, die mittlerweile sehr beeindruckend real wirken. Und mit dem darauf basierenden und vielleicht auch zusammenfassenden KI-Filmtool Flow wird das Zusammenklicken so leicht wie nur möglich. Whisk sticht ein wenig in dieselbe Kerbe.

Parallel zu den damaligen Modellen Imagen 3 und Veo 2 hat Google im Dezember letzten Jahres ein weiteres Tool vorgestellt, das zunächst etwas unter dem Radar geflogen ist, aber sehr interessant ist und wohl weiter verfolgt wird: Mit dem experimentellen Werkzeug Whisk will man es den Nutzern auch ganz ohne umfangreiche Prompts ermöglichen, neue Bilder zu erstellen. Denn obwohl per KI eigentlich alle Türen offenstehen, ist es oftmals gar nicht so leicht, einen guten Prompt zu finden oder sich ein nicht-existierendes Bild soweit vorzustellen, dass die KI auch tatsächlich das liefern, was gewünscht ist oder man sich in Gedanken zusammengelegt hat.

Mit Whisk bekommen alle Nutzer die Möglichkeit, eines oder mehrere Bilder hochzuladen, aus denen ein ganz neues Werk geformt werden soll. Der Ablauf ist schnell erklärt: Whisk wird die wichtigsten Elemente der Bilder erkennen, diese Dinge extrahieren und im besten Fall verstehen, mit den anderen Motiven oder Wünschen kombinieren und anschließend ein ganz neues Bild erstellen. Trotz Zusammenführung und KI-generierter kann das Ergebnis vollkommen anders aussehen, als wenn man tatsächlich nur zwei Bilder miteinander kombinieren würde. Schaut euch das einmal in der folgenden Galerie sowie im Video an.

















So funktioniert Whisk

Der Ablauf erscheint im Hintergrund etwas umständlich, aber gehört eben auch zum Konzept von Whisk: Denn es nicht das vom Nutzer hochgeladene Foto, sondern nur eine von der KI erstellte Beschreibung. Das Bild oder die Bilder werden durch Gemini gejagt, von der Gemini-Bilderkennung in seine Einzelteile zerlegt und diese Beschreibung wiederum für den Prompt verwendet. Das bedeutet, dass mit zunehmender Prompt-Länge und Qualität der Bildanalyse auch das Ergebnis besser wird. Es ist also eine Verwandlung von Bild zu Text und anschließend wieder Text zu Bild..

Weil Whisk nur wenige Schlüsselmerkmale aus dem Bild extrahiert, können die generierten Bilder von den Erwartungen abweichen und zum Teil ganz anders aussehen. Das generierte Motiv kann beispielsweise eine andere Größe haben, die Objekte oder Figuren ein anderes Gewicht, eine andere Frisur oder einen anderen Hautton haben. Die Entwickler wissen, dass diese Merkmale für das eigene Projekt entscheidend sein können und Whisk möglicherweise nicht das gewünschte Ergebnis liefert. Aber daraus will man lernen und hält es absichtlich so einfach wie möglich. Daher kann die zugrunde liegenden Eingabeaufforderungen jederzeit angezeigt und bearbeitet werden.

Damit Whisk auch einen Lerneffekt mitbringt, können die Nutzer den verwendeten Prompt ablesen und nach der Erstellung bei Bedarf verändern. So können sich immer wieder neue Bilder ergeben oder die bereits erstellten sowohl grob als auch im kleineren Stil angepasst werden.

