GoogleWatchBlog

Gemini: Neue Google-KI kann euer Smartphone, Apps und Webseiten steuern – Computer use startet (Videos)

» Web-Version «

Google baut den Funktionsumfang des KI-ChatBots Gemini immer weiter aus und deckt längst alle wichtigen medialen Bereiche ab – sowohl im Verständnis als auch der Ausgabe. Mit dem noch recht jungen Gemini Computer use steht jetzt ein völlig neuer Bereich vor dem großen Sprung: Dieses integrierte Modell soll es der KI ermöglichen, grafische Benutzeroberflächen und Webseiten zu verstehen und auch zu bedienen.


Das KI-Modell Gemini ist laut Google bereits in das „Zeitalter der KI-Agenten“ gestartet und verschiebt damit den Schwerpunkt in Richtung Eigenständigkeit und flexibler Interaktion, statt sich nur auf Frage-Antwort zu konzentrieren. Sowohl die kommende Smartphone-Generation als auch der Sprung auf den Desktop sollen dafür sorgen, dass Gemini allgegenwärtig ist und deutlich mehr kann, als nur mit einem Prompt und einer Konversationsansicht aufzutreten. Es geht um das tiefe Verständnis von grafischen Benutzeroberflächen.

Gemini Computer Use steuert grafische Oberflächen
Das noch recht junge KI-Modell Gemini Computer use ist jetzt fest in Gemini 3.5 Flash integriert und kann von interessierten Nutzern und Entwicklern ausprobiert werden. Alle Infos dazu findet ihr im verlinkten Artikel. Wie die Bezeichnung schon verrät, kann das KI-Modell den Computer des Nutzers fernsteuern – ebenso wie Smartphones oder Webseiten. Dabei greift man tatsächlich auf die für Menschen geschaffenen Schnittstellen zurück: Das reicht von den Tastatureingaben und Tastenkombinationen über Mausbewegungen und Cursor-Überfahren bis zum Drag & Drop. Gemini soll die Oberflächen genauso verstehen und bedienen, wie es ein menschlicher Nutzer tun würde.

Vor einiger Zeit wurden zwei Beispielvideos veröffentlicht, die die Funktionsweise von Gemini Computer use demonstrieren: Der Nutzer gibt seine gewünschte Aufgabe in das Promptfeld ein, der von der Gemini-KI gesteuerte KI-Agent analysiert die Oberfläche in Form von Screenshots (nicht auf Quelltext-Ebene) und wird anschließend mit dieser interagieren. Wie das funktioniert, könnt ihr euch in den folgenden Videos ansehen.




Prompt: “From https://tinyurl.com/pet-care-signup, get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.”

Prompt: “My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.”

Die Videos haben schon einige Monate auf dem Buckel und mittlerweile dürfte man sowohl funktional als auch vom Verständnis schon wieder einige Schritte weiter sein. Die Integration der KI-Agenten in Android sowie der Start von Android mit Gemini auf dem Desktop schaffen zudem Brücken, die notwendig sind. Die Prompts sind recht simpel und die Aufgaben überschaubar, aber es ist auch nur der erste Schritt auf diesem Weg und schon bald dürfte Gemini auch deutlich aufwendigere Apps, Projekte und Webseiten fernsteuern können. Dennoch ist anzunehmen, dass das eher eine Brückentechnologie bleibt, denn natürlich wären KI-Schnittstellen innerhalb der Apps deutlich sinnvoller.

[Google-Blog]

Letzte Aktualisierung am 22.06.2026 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.


Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren