Googles KI-Modell Gemini hat sich im medialen Bereich zuletzt sehr breit aufgestellt und sowohl die Bild- als auch Videogenerierung sowie die entsprechende Bearbeitung weit nach vorn gebracht. Kürzlich ist das neue Feature Foto-zu-Video gestartet, deren Funktion sich schon aus der Bezeichnung ergibt. Jetzt präsentiert Google eine Reihe von Beispielvideos inklusive Prompt.



Gemini macht dank des multimodalen Ansatzes keinen Unterschied zwischen Text, Audio, Bild, Video oder anderen Formaten, das zeigt sich auch durch die breite Aufstellung in all diesen Bereichen. Wir haben euch erst vor wenigen Tagen die beeindruckenden Möglichkeiten der Gemini-Bildbearbeitung Nano Banana gezeigt und heute schauen wir uns einen anderen medialen Bereich an, der zusätzlich Videos umfasst.

Die neue Funktion nennt sich schlicht Foto-zu-Video und tut genau das. Nutzer können ein beliebiges Foto hochladen und dieses von Gemini zum Leben erwecken lassen. In einem kurzen Prompt können Nutzer erklären, was sie erwarten und Gemini wird aus dem Prompt sowie dem Ausgangsbild ein 8-sekündiges Video erstellen. Die Ergebnisse können, wie bei einer generativen KI üblich, variieren und daher kann es auch sinnvoll sein, manchen Prompt mehrfach abzuschicken oder vielleicht auch das Bild geringfügig vorab zu modifizieren.

Für alle generierten Inhalte gilt, dass das hochgeladene Foto stets das erste Bild im generierten Video ist. Das schränkt die Kreativität nicht ein, zeigt aber auch, dass der Videogenerator mit so vielen Details versorgt wird, dass jedes Detail des Fotos im ausgespuckten Video vorhanden ist. Dabei lassen sich Objekte animieren, Strukturen erkennen, neue Objekte hinzufügen, das Bild schwenken und vieles mehr. Im Grunde ist es ein Videogenerator, bei dem durch das Bild viele Details vorgegeben werden. Schaut euch einmal die Beispiele an.









The bicycle rides through an illustration-style desert, weaving through cacti.

The dinosaur skeleton comes to life.

The figure waves at the camera. While the figure is distracted and waving, a golden retriever dog enters the frame from the right, panting and wagging its tail. The dog eats the ice cream cone out of the figure’s other hand. The figure is startled by this, and stares at the dog in surprise. The dog is happily wagging its tail and licking its lips. The figure looks at the camera.









Open the scene with the image and hold for one second. Then, the wall color changes to a bright blue, and a wooden coffee table appears in front of the two arm chairs in the image. On the coffee table appear two large podcasting microphones. The rest of the room is unchanged. Hold for one second. Then, the wall color changes to a light gray, and the microphones disappear from the coffee table. Next, on the table appears: a black tablecloth, two plates of chicken wings, and several bottles of hot sauce. The rest of the room is unchanged. Hold for one second. Then, the wall color changes to a vibrant pink. The plates of chicken wings, bottles of hot sauce, and black tablecloth disappear from the coffee table. Then, on the table appears: a bright blue table cloth and a birthday cake with lit candles. Birthday balloons appear and float in the background. The rest of the room is unchanged. Throughout the video plays an instrumental track of an upbeat pop song.

Alle Videos haben eine Länge von 8 Sekunden, basieren auf dem Ausgangsbild und werden nach Prompt erstellt. Außerdem besitzen alle Videos eine Audiospur, die ebenfalls per Prompt beschrieben werden kann. Jedes Video wird derzeit noch im Format 16:9 erstellt, wobei für hochgeladene Bilder in anderen Formaten ein schwarzer Randbalken zum Einsatz kommt. Neben den grundlegenden Inhaltsanweisungen können Nutzer auch Regieanweisungen für die Kamera und die Gesamtdarstellung geben. Natürlich ist in 8 Sekunden nicht alles möglich, aber die Flexibilität ist schon recht hoch.

Abonnenten von Google AI Pro können bis zu drei Videos am Tag erstellen, ihr solltet also nicht zu viele Versuche wagen. Habt ihr ein Google One AI Ultra-Abo, erhöht es sich auf fünf Videos pro Tag.

