Whisk: Google Gemini startet einen neuen Bildgenerator – Bildern und KI visualisieren und neu mischen (Video)

google 

Google hat gestern die beiden neuen Gemini-Mediengeneratoren Imagen 3 und Veo 2 vorgestellt, mit denen die Nutzer durch einfache Prompts beliebige Bilder oder Videos erstellen können. Aber es gibt noch ein drittes Tool im Bunde, das einen etwas anderen Ansatz verfolgt und das Erstellen von Bildern noch weiter vereinfachen soll: Mit Whisk lassen sich neue Bilder visuell generieren und anpassen.


gemini whisk

Mit Bild- und Videogeneratoren wie Imagen und Veo stehen den Nutzern alle Türen offen, doch oftmals ist es gar nicht so leicht, einen guten Prompt zu finden oder sich ein noch nicht existierendes Bild überhaupt vorzustellen. Mit dem neuen experimentellen Tool Whisk will Google diese Lücke schließen: Nutzer können einfach eines oder mehrere Bilder hochladen und die KI wird aus diesem ein neues Werk formen. In der unten eingebundenen Galerie sowie im Video könnt ihr Beispiele sehen.

Whisk funktioniert dabei im Hintergrund etwas umständlich, aber vielleicht auf dem derzeit besten Weg: Denn es wird nicht das von den Nutzern hochgeladene Foto verwendet, sondern nur eine Beschreibung dessen: Das Foto oder die Fotos werden durch Gemini gejagt, von der Gemini-Bilderkennung analysiert und beschrieben und diese Beschreibung dann wiederum für den Prompt verwendet. Das bedeutet, dass mit zunehmender Prompt-Länge und Qualität der Bildanalyse auch das Ergebnis besser wird.

Damit Whisk auch einen Lerneffekt hat, können die Nutzer den verwendeten Prompt ablesen und nach der Erstellung bei Bedarf verändern. So können sich immer wieder neue Bilder ergeben oder die bereits erstellten sowohl grob als auch im kleineren Stil angepasst werden. Schaut euch einmal die Beispiele an.




whisk 1

whisk 2

whisk 3

whisk 4




Da Whisk nur wenige Schlüsselmerkmale aus dem Bild extrahiert, können die generierten Bilder von den Erwartungen abweichen. Das generierte Motiv kann beispielsweise eine andere Größe, ein anderes Gewicht, eine andere Frisur oder einen anderen Hautton haben. Die Entwickler wissen, dass diese Merkmale für das eigene Projekt entscheidend sein können und Whisk möglicherweise nicht das gewünschte Ergebnis liefert. Daher kann die zugrunde liegenden Eingabeaufforderungen jederzeit angezeigt und bearbeitet werden.

Bei Googles ersten Tests mit Künstlern und Kreativen wurde Whisk von den Leuten als eine neue Art von Kreativwerkzeug beschrieben – kein traditioneller Bildeditor. Es wurde für die schnelle visuelle Erkundung entwickelt, nicht für pixelgenaue Bearbeitungen. Es geht darum, Ideen auf neue und kreative Weise zu erkunden, sodass sich Dutzende von Optionen durcharbeiten und diejenigen herunterladen können, die den Nutzern am besten gefallen.

Probiert Whisk doch einmal aus. Derzeit steht es nur für US-Nutzer zur Verfügung, aber wenn ihr euren Standort verschleiert, lässt es sich auch hierzulande problemlos und sogar in deutscher Sprache nutzen.

» Gemini: Google startet beeindruckende neue KI-Modelle – Imagen 3 für Bild und Veo 2 für Video (Galerie)

[Google-Blog]

Letzte Aktualisierung am 2025-01-15 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung!




Teile diesen Artikel:

Facebook twitter Pocket Pocket