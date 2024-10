Mit den smarten Augen von Google Lens lassen sich seit langer Zeit Bilder analysieren und die darauf befindlichen Objekte, Texte, Szenerien oder sonstigen Inhalte sehr einfach erkennen. Jetzt kommt bei immer mehr Nutzern eine neue Funktion an, die Google schon vor einigen Monaten vorgestellt hat und die gesamte App auf eine völlig neue Stufe stellt: Die Analyse von Videos inklusive der Möglichkeit, Fragen zu stellen.



Das neue KI-Modell von Gemini ist dazu in der Lage, Videos zu verarbeiten und dieses dank des multimodalen Ansatzes nach eigenen Angaben ähnlich wie Text oder Bild zu behandeln. Das hat Google immer wieder betont und zeigt es jetzt im Rahmen von Google Lens und der Websuche im Einsatz: Nutzer können zu einem Video Fragen stellen und die KI sollte diese durch ein Verständnis des Geschehens (und nicht nur der Bildanalyse) verarbeiten und beantworten können. Genau diese Möglichkeiten will man jetzt für immer mehr Nutzer in die Google Websuche bringen, wie ihr in dem folgenden kurzen Video sehen könnt.

Nutzer können ein kurzes Video hochladen und passend zu diesem eine Frage stellen oder eine Anfrage senden, die dann von der KI beantwortet oder zumindest für die weitere Recherche genutzt wird. Im obigen Beispiel könnt ihr sehen, dass der Arm des Plattenspielers nicht auf der Platte bleibt, sondern wieder zurückfährt. Der fiktive Nutzer hat daraufhin ein kurzes Video angefertigt und die Websuche gefragt, warum „das nicht dort bleibt“. Für einen anderen Menschen eine klare Sache, für ein KI-Modell hingegen sicherlich nicht so einfach.

Denn erst einmal muss die KI nicht nur das Geschehen erkennen, sondern auch verstehen, was eigentlich das Problem ist. Was ist „das“?, wo ist „dort“? und warum ist die Zurück-Bewegung nicht das erwartete Verhalten? Die Gemini-KI soll das notwendige Verständnis haben und daraus die entsprechende Suchanfrage formen und auch gleich die passenden Antworten liefern.









In diesen Beispielen wäre man sicherlich auch ohne Video ausgekommen, denn eine Anfrage „warum bleibt der Arm nicht auf dem Plattenspieler“ würde ähnlich viel helfen. Aber gerade wenn man selbst keine Ahnung von dem hat, was man da gerade nutzen will und sich somit allein schon bei der Formulierung der Frage schwertun würde, kann das sicherlich sehr hilfreich sein.

Der erste Rollout wurde im Mai für US-Nutzer mit aktiven Search Labs gestartet. Jetzt soll laut einigen Beobachtern der weltweite Rollout für alle Nutzer innerhalb von Google Lens bzw. der Google Websuche beginnen. Das erste Video stammt aus Googles Promo-Material, während das zweite von Android-Experte Mishaal Rahman in seinem eigenen Testlauf aufgenommen werden konnte.

