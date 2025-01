Google hat kürzlich den Start von Gemini 2.0 bekannt gegeben und das neue KI-Modell auch schon für die ersten Nutzer geöffnet, die sich vom gewachsenen Funktionsumfang überzeugen können. Mit der zweiten Gemini-Generation startet man offiziell in die Ära der KI-Agenten, die nach Googles Ansicht schon sehr bald eine tragende Rolle im Umgang mit der Künstlichen Intelligenz spielen sollen. Doch was sind diese KI-Agenten eigentlich und welche Möglichkeiten bieten sie?



Google macht mit Gemini sehr große Schritte, denn das KI-Modell wird auf allen Ebenen mit Hochdruck weiterentwickelt und soll damit in alle Google-Produkte integriert werden und damit auch die Marktführerschaft noch in diesem Jahr übernehmen. Nachdem schon im vergangenen Jahr recht kurz nach Gemini 1.0 die Zwischenversion Gemini 1.5 veröffentlicht wurde, startete man mit dem neuen Gemini 2.0 in das Jahr 2025 und hat dabei nicht weniger als eine neue Ära ausgerufen. Nämlich die Ära der KI-Agenten.

Natürlich wurde die zweite Generation als die bisher leistungsfähigste angekündigt, was bei der rasanten Entwicklung der Modelle nicht ganz verwunderlich ist. Doch nicht die Anzahl der Tokens oder der Umfang des Fakten-Wissens stehen im Mittelpunkt, was bei den aktuellen Modellen ja längst die wichtigsten Bereiche abdeckt, sondern die Multimodalität des KI-Modells. Das bedeutet, dass Gemini unabhängig vom Medium die enthaltenen Informationen verarbeiten und auch in alternativer Form wieder ausgeben kann. Text, Audio, Bild oder Video – ganz egal.

Schon das erste Gemini-Modell stellte die Multimodalität in den Mittelpunkt, doch mit dem zweiten sollen das Verständnis und die Leistungsfähigkeit deutlich gesteigert werden. Dazu gehören aber auch die KI-Agenten, die eine weitere Dimension zu Gemini bringen und es den Nutzern ermöglichen, mit den unterschiedlichsten digitalen Experten zu kommunizieren. Jeder dieser Agenten hat sein eigenes Wissen, eigene Ansichten, andere Herangehensweisen und vielleicht auch Fähigkeiten. In den unten eingebundenen Videos könnt ihr euch diese Agenten einmal ansehen.









Die neuen Gemini-Agenten

Mariner: Komplexe Aufgaben im Chrome-Browser erledigen.

Astra: Visuelles Verständnis für smarte Brillen.

Imagen: Verständnis für Bilder und Videos.

Gemini for Games: Versteht Spiele, unterstützt Spieler und kann neue Spiele und Welten schaffen.









Die neuen Gemini-Fähigkeiten und Agenten sollen viele zusätzliche Möglichkeiten und Zugänge schaffen. Dabei geht es hauptsächlich darum, den Menschen das KI-Modell zugänglich zu machen, das sie bisher hauptsächlich in Textform per ChatBot oder nur über Schnittstellen in anderen Google-Apps nutzen können. In der zweiten Generation geht es darum, die Nutzung der KI in den Bereichen Multimedia, Spiele und über das visuelle Verständnis sowie die halbautomatische Recherche auch im Alltag nutzen können.

Zuerst zeigt sich das Projekt Mariner zur ferngesteuerten Nutzung von Google Chrome, wobei die KI praktisch live den Browser des Nutzers bedient und die Verwendung von Webseiten und Formularen übernimmt. Es folgt das Project Astra für smarte Brillen, von dem wir in den nächsten Monaten sicherlich noch sehr viel hören werden. Anschließend folgt die Vorstellung der verbesserten Medienfähigkeiten mit den neuen Bild- und Videogeneratoren Imagen 3 und Veo 2. Zu guter Letzt zeigt man auch noch, dass die KI bei Videospielen in allen Belangen hilfreich sein und gar neue Spiele oder Welten erstellen kann.

Wie ihr seht, wird es mittelfristig für viele Aufgabenbereiche eigene Agenten geben und schon jetzt lässt sich sagen, dass Agenten die neuen Apps sind – sozusagen der Nachfolger der aktuellen App-basierten Lösung. Wir dürfen gespannt sein, welchen Einfluss all diese Projekte haben werden, wenn Google sie im Laufe der nächsten Monate für alle Nutzer startet.

