Gemini: Google startet ein neues KI-Modell für grafische Benutzeroberflächen – jetzt für erste Nutzer verfügbar
Google baut den Umfang des KI-Modells Gemini immer weiter aus und gibt jetzt ersten Nutzern Zugriff auf eine ganz neue Variante, die sicherlich eher als Übergang zu sehen ist. Das neue Gemini 2.5 Computer Use ist dazu in der Lage, App-Oberflächen und Webseiten zu analysieren, zu verwenden und die vom Nutzer gestellten Aufgaben auszuführen.
Schon vor einigen Monaten hatte Google eine Reihe von neuen Gemini-Möglichkeiten angekündigt, die es dem KI-Modell ermöglichen sollen, mit grafischen Benutzeroberflächen zu interagieren. Einen Teil davon hat man mit dem Project Mariner sowie dem Start von Gemini in Google Chrome schon auf die breite Bühne gebracht und jetzt gibt es den nächsten Schritt.
Es handelt sich um ein spezialisiertes Modell, das sich derzeit vor allem auf Web-Apps bezieht und alle notwendigen Schritte nach Eingabe der Aufgabe selbst ausführt. Man hat den folgenden Ablauf beispielhaft veröffentlicht:
- Senden Sie eine Anfrage an das Modell: Zu den Eingaben gehören die „Benutzeranfrage, ein Screenshot der Umgebung und ein Verlauf der letzten Aktionen“.
- „Das Modell analysiert dann diese Eingaben und generiert eine Antwort, normalerweise einen Funktionsaufruf, der eine der UI-Aktionen wie Klicken oder Tippen darstellt.“
- Erhalten Sie die Modellantwort: „… der clientseitige Code führt dann die empfangene Aktion aus.“
- „Nachdem die Aktion ausgeführt wurde, werden ein neuer Screenshot der GUI und die aktuelle URL als Funktionsantwort an das Computernutzungsmodell zurückgesendet, wodurch die Schleife neu gestartet wird.“
Das KI-Modell ist dazu in der Lage, eine Aktion im Browser durchzuführen und dabei auf die folgenden Elemente zu setzen: Es kann im Web navigieren, kann den Cursor über Elemente schweben lassen, scrollen, Drag&Drop benutzen und auch Tastenkombinationen ausführen. Gemini 2.5 Computer Use ist jetzt als öffentliche Vorschau über die Gemini-API in Google AI Studio und Vertex AI verfügbar.
Es ist zu erwarten, dass dieses Modell zukünftig noch mehr Möglichkeiten für die Gemini-Integration im Chrome-Browser bringt.
Jetzt Pixel 10 kaufen und ein Jahr Google One AI Pro gratis erhalten + 300 Euro Eintauschbonus:
Letzte Aktualisierung am 2025-12-01 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter
