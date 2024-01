Google hat vor wenigen Tagen die neue Text-zu-Video-KI Lumiere vorgestellt, mit dem man die für die breite Masse verfügbare generative Künstliche Intelligenz auf ein neues Level heben möchte. Die ersten Beispielvideos wissen zu beeindrucken und zeigen, was schon heute möglich ist und sicherlich schon bald für erste Nutzer zugänglich gemacht wird. Jetzt erklärt man, wie das Ganze funktioniert.



Die generative Künstliche Intelligenz zur Erstellung von Bildern aus Text ist noch recht jung und hat einige Schwächen, ist aber dennoch gefühlt schon wieder ein alter Hut. Die großen KI-Entwickler sind daher schon zu Video weitergezogen und auch Google hat vor wenigen Tagen mit Lumiere erstmals eine neue Text-zu-Video-KI präsentiert. Googles Produkt will sich nach eigenen Angaben durch besonders klare und flüssige Videos von der Konkurrenz abheben.

Zukünftige Nutzer werden mit Lumiere die Möglichkeit haben, Videos aus einer Texteingabe heraus zu erstellen, wobei gerade bei Videos der Prompt sicherlich sehr wichtig sein wird. Aber man beschränkt sich nicht darauf, sondern holt auch andere Quellen mit an Bord: So sollen Nutzer auch bereits bestehende Videos per Prompt bearbeiten und einzelne Objekte oder Personen austauschen können – schaut euch das einfach einmal im unten eingebundenen Beispielvideo an. Die dritte Variante ist es, ein statisches Bild vollständig oder nur einzelne Bereiche daraus zu animieren.

In allen drei gezeigten Einsatzbereichen zeigt sich, dass das resultierende Video eine hohe Qualität und klare Darstellung aufweist. Das soll aber nicht geschönt sein, sondern durch Googles Herangehensweise ein fester Teil des Konzepts sein, bei dem man der Konkurrenz nach eigenen Angaben voraus ist. Es ist anzunehmen, dass die Lumiere-KI auf Googles Gemini basiert – mutmaßlich schon auf der multimodalen Ultra-Variante.









Die hinter Lumiere stehende KI betrachtet ein Video nicht als eine lange Aneinanderreihung einzelner Bilder, so wie das andere Video-KIs tun, sondern sieht das gesamte Video als Gesamtmedium. Daher gibt es keine Ruckler, keine Fragmente oder sonstige Dinge, die zwischen zwei Bildern einschleichen können. Das wiederum sorgt derzeit aber auch für einige Einschränkungen, an denen man in Zukunft noch arbeiten will: So sind Szenen-Wechsel nicht möglich, es lässt sich praktisch nur eine Sequenz animieren und die Videos können nicht länger als 5 Sekunden sein. Letztes liegt an der aktuellen Kapazitätsgrenze von 80 Frames bei 16 FPS. Das dürfte sich mit mehr Rechenpower aber ändern lassen.

Die maximale Auflösung liegt bei 1024×1024, was je nach Verwendungszweck aber schon heute ausreichend sein dürfte. Googles neue Herangehensweise dürfte es einem solchen Projekt zu Beginn schwer machen, doch wenn man all die derzeitigen Schwierigkeiten und Einschränkungen erst einmal ausgeräumt hat, ist das Konzept vielversprechender und zukunftssicherer als die anderen Video-KIs, die eher bildbasiert arbeiten und nur Einzelbilder betrachten.

Ich würde erwarten, dass man diese Demo recht schnell für erste Nutzer, mutmaßlich zahlende Gemini-Kunden, anbieten und den Vorsprung nutzen wird. Bis es soweit ist, könnt ihr euch die zahlreichen Demos auf der Lumiere-Webseite ansehen.

[Futurezone]

