Gemini Computer Use: Neue Google-KI kann Computer, Webseiten und Apps steuern – das ist möglich (Videos)

Jens

» Web-Version «
vor 5 Monaten

Google baut den Umfang von Gemini weiter aus und hat in dieser Woche erneut ein ganz neues Modell gestartet, das Reichweite und Funktionalität ausbauen soll. Das neue Gemini Computer Use kann grafische Benutzeroberflächen und Webseiten steuern, ohne dass der Nutzer darin eingreifen muss. Wir zeigen euch, was damit möglich ist.

Google startet mit Gemini in das Zeitalter der KI-Agenten und hat gerade erst damit begonnen, Gemini im Chrome-Browser tiefer zu integrieren. Darin bietet Gemini schon heute die Möglichkeit, gewisse Formularfelder auszufüllen und mit Webseiten zu interagieren – und schon bald dürfte das noch sehr viel tiefer gehen. Denn das von Google jetzt vorgestellte neue Modell soll ein tiefes Verständnis von grafischen Benutzeroberflächen haben.

Gemini Computer Use steuert grafische Oberflächen
Wie die Bezeichnung des KI-Modells schon vermuten lässt, kann das KI-Modell den Computer des Nutzers fernsteuern und greift dabei tatsächlich auf die Möglichkeiten für menschliche Nutzer zurück. Also Tastatureingaben, Tastenkombinationen, Mausbewegungen, Cursor-Überfahren oder Drag&Drop. Gemini soll die Oberflächen genauso verstehen und bedienen, wie es ein menschlicher Nutzer tun würde.

Jetzt hat man zwei Beispielvideos veröffentlicht, in denen die Funktionsweise zu sehen ist: Die Nutzer geben einfach ihren Prompt mit der gewünschten Aufgabe ein und der von Gemini gesteuerte KI-Agent analysiert die Oberfläche in Form von Screenshots (nicht auf Quelltext-Ebene) und wird anschließend mit dieser interagieren. Wie das funktioniert, könnt ihr euch in den folgenden Videos ansehen.

Prompt: “From https://tinyurl.com/pet-care-signup, get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.”

Prompt: “My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.”

Wie ihr sehen könnt, kann das Gemini-Modell auch mit zwei oder mehr Webseiten gleichzeitig interagieren. Die Prompts sind recht simpel und die Aufgaben überschaubar, aber es ist auch nur der erste Schritt auf diesem Weg und schon bald dürfte Gemini auch deutlich aufwendigere Apps, Projekte und Webseiten fernsteuern können. Dennoch ist anzunehmen, dass das eher eine Brückentechnologie bleibt, denn natürlich wären KI-Schnittstellen innerhalb der Apps deutlich sinnvoller.

[Google-Blog]

Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren