Google hat erst in diesem Jahr das Zeitalter der KI-Agenten ausgerufen, das den digitalen Alltag vieler Menschen schon bald verändern soll – und jetzt steigt man bereits voll in dieses ein. Kürzlich wurde im Rahmen der großen Gemini-Show sowohl der Gemini Agenten-Modus vorgestellt und dessen Integrationen sowie Fähigkeiten demonstriert. Das Ganze steht bereits in den Startlöchern und hat gewaltiges Potenzial.



Die KI-ChatBots und ihre darunterliegenden KI-Modelle haben in den letzten Jahren unglaublich große Fortschritte gemacht, wobei mittlerweile auch Google an der Speerspitze steht und immer wieder neue Innovationen bringt. Obwohl heute bereits Dinge möglich sind, an die man vor drei Jahren noch nicht einmal denken konnte, steht die KI-Entwicklung noch ganz am Anfang und wird sehr viel tiefer in den digitalen Alltag einziehen. Und dann sind wir auch schon beim Buzzword der KI-Agenten.

Innerhalb kürzester Zeit hat sich die Nutzung der KI-ChatBots etabliert, aber dennoch basieren sie nach wie vor auf dem Frage-Antwort-Spiel, das bereits seit den digitalen Assistenten zum Alltag gehört. Mit Produkten wie Gemini Live wird das ein wenig kaschiert, denn die mediale Komponente lenkt vom eigentlichen Ablauf ab, aber es bleibt beim gewohnten Ablauf: Der Nutzer fragt oder bittet und die KI antwortet oder führt die gewünschte Aktion aus. Mit den KI-Agenten soll sich dieses Spielchen aufbrechen und somit eine richtige Beziehung zwischen Nutzer und KI entstehen.

Die Nutzer können dauerhafte Aufgaben für Beobachtung, Funktionsausführung oder sonstige Reaktionen ausgeben. Die KI wird sich diese Dinge merken und die Nutzer immer wieder daran erinnern, über neue Entwicklungen informieren oder Ähnliches. Als Beispiel zeigt man eine Wohnungssuche mit konkreten Anforderungen. Heute gibt es kein Ergebnis, aber vielleicht morgen oder nächste Woche. Ein wichtiger Bestandteil des neuen Gemini Agent Modus ist das Project Mariner.

Project Mariner integriert KI in den Chrome-Browser

Mit dem Project Mariner kommt Gemini in den Chrome-Browser und ist dazu in der Lage, selbstständig im Web zu surfen, während der Nutzer dabei zusieht. Mariner ist ein Teil der Agent-KI, gleichzeitig aber auch ein Tool für den Browser-Alltag. Lest euch dazu einmal den verlinkten Artikel durch und schaut euch vor allem das eingebettete Video an. Die KI kann sowohl im Hintergrund agieren als auch beobachtet werden, wobei das für die Abläufe aber keinen großen Unterschied macht.









Project Mariner









Gemini Agent Mode









Gemini Agent Mode

Mit dem Gemini Agenten-Modus positioniert sich der KI-ChatBot als Helferlein, das den Alltag des Nutzers aktiv unterstützen kann. Die Agenten lernen die Wünsche des Nutzers kennen, die Vorlieben und auch die gewohnten Abläufe – das ist es auch, was ich mit „Beziehung aufbauen“ meinte. So lässt sich etwa eine Form der Automatisierung aufstellen, die vom Gemini KI-Agent durchlaufen werden könnte. Beispiel: Bitte denke daran, alle meine Fotos von Ort X regelmäßig an Person Y zu senden. Oder: Recherchiere zum Thema Z und informiere mich bei Neuigkeiten.

Google beschreibt diese neuen Möglichkeiten mit einigen kurzen Worten, die ich euch nicht vorenthalten möchte: „Stellen Sie sich vor, Sie geben einfach Ihr Ziel an, und Gemini koordiniert intelligent die Schritte, um es zu erreichen. Der Agentenmodus kombiniert nahtlos erweiterte Funktionen wie Live-Webbrowsing, detaillierte Recherche und intelligente Integrationen mit Ihren Google-Apps und ermöglicht es so, komplexe, mehrstufige Aufgaben von Anfang bis Ende mit minimaler Aufsicht Ihrerseits zu bewältigen.“

Der neue Gemini Agenten-Modus wird zunächst nur für Abonnenten von Google One AI Ultra zur Verfügung stehen. Es ist allerdings zu vermuten, dass diese Einschränkung auf das 250 Dollar-Abo sehr schnell fallen wird und man die Grundfunktionen dieses Modus auch für die breite Nutzerschaft anbieten wird.

