Gemini Robotics: Wann kommen die ersten KI-Roboter? Google Deepmind macht große Fortschritte (Video)
Google arbeitet schon seit längerer Zeit daran, die KI aus dem digitalen Raum ausbrechen zu lassen und mit Gemini Robotics in die reale Welt zu bringen. Jetzt gibt man ein Zwischenstand-Update, denn in den letzten Monaten konnte große Fortschritte erzielt werden, die eines Tages zu den Gemini-Robotern führen sollen. Aber auch heute sind die erzielten Schritte schon interessant.
Viele Menschen sind gegenüber der Künstlichen Intelligenz skeptisch – und das sicherlich nicht zu unrecht. Zwar hat sie heute schon großen Einfluss auf den Alltag und die Nutzung vieler Produkte, doch sie lebt nach wie vor hinter dem Display. Das soll sich mit Gemini Robotics schon bald ändern, denn Google arbeitet gemeinsam mit dem Deepmind-Team und der ehemaligen Tochter Boston Dynamics mit Hochdruck an Robotern.
Dabei geht es weniger um die Hardware der Roboter, sondern viel mehr um die intelligente Steuerung dieser Bauteile. Es kommt eine spezielle Version der Gemini-KI zum Einsatz, die Objekte erkennt, exakte Abmessungen liefert, Materialien erkennen und entsprechend mit den Objekten interagieren kann. Schon im vergangenen Jahr hatte man gezeigt, wie der Roboter Objekte hochhebt und dabei stets den richtigen Kraftaufwand und Druck anwendet. Vom Amboss über den Ball bis zum rohen Ei.
Gemini nimmt die Umgebung bzw. den Arbeitsbereich über die Kameras wahr, erkennt Objekte, deren Abmessungen und kann diese in eine 3D-Welt mit den technisch benötigten Koordinaten umwandeln. Im nächsten Schritt geht es darum, diese Daten zu verstehen und entsprechend auf Basis der vom Nutzer gestellten Aufgabe zu interagieren – man spricht von einer manipulativen Tat. So kann Gemini mit den Roboter-Armen dann Objekte verschieben, sortieren, etwas würfeln, Dinge hochheben oder im anspruchsvollsten Fall sogar ein Origami falten.
Die wichtigsten Neuerungen
Ein zentraler Fortschritt liegt in der Verfeinerung des räumlichen Denkens durch eine deutlich präzisere „Pointing“-Funktion. Diese dient euch als Basis, um komplexe räumliche Konzepte umzusetzen: Das Modell kann nun nicht nur Objekte exakter zählen und lokalisieren, sondern auch relationale Logik anwenden – etwa um den kleinsten Gegenstand in einer Gruppe zu finden oder Trajektorien für optimale Greifpunkte zu berechnen. Im Vergleich zu den Vorgängerversionen zeigt die Version 1.6 eine höhere Zuverlässigkeit darin, nur tatsächlich vorhandene Objekte zu identifizieren und Halluzinationen zu vermeiden.
Die Autonomie der Systeme wird durch eine verbesserte Erfolgserkennung und das sogenannte Multi-View-Reasoning gestärkt. Roboter müssen heute oft mehrere Kamerastreams gleichzeitig verarbeiten, beispielsweise eine fest installierte Deckenkamera und eine Kamera am Greifarm. Gemini Robotics-ER 1.6 verknüpft diese unterschiedlichen Blickwinkel zu einem kohärenten Gesamtbild. Dadurch könnt ihr sicherstellen, dass ein Roboter auch bei schwierigen Lichtverhältnissen oder wenn Objekte teilweise verdeckt sind, zweifelsfrei erkennt, ob ein Arbeitsschritt korrekt abgeschlossen wurde oder ein erneuter Versuch notwendig ist.
Eine völlig neue Kernfähigkeit ist die hochpräzise Instrumentenablesung für industrielle Umgebungen. Durch den Einsatz von „Agentic Vision“ ist das Modell in der Lage, eigenständig Zwischenschritte zu planen: Es identifiziert ein Messgerät, zoomt für eine detaillierte Ansicht heran und nutzt eine Kombination aus visuellem Zeigen und automatisierter Code-Ausführung, um Proportionen und Intervalle zu berechnen. So lassen sich analoge Manometer, digitale Anzeigen oder chemische Schaugläser mit einer Genauigkeit ablesen, die sogar unterhalb der kleinsten Skalenmarkierung liegt.
Im Bereich der Sicherheit setzt das Modell neue Maßstäbe bei der Einhaltung physischer Integritätsregeln. Es versteht und befolgt nun wesentlich besser spezifische Einschränkungen, wie das Verbot, mit Flüssigkeiten zu hantieren oder Objekte über einem bestimmten Gewichtslimit anzuheben. Darüber hinaus wurde die Fähigkeit verbessert, potenzielle Verletzungsrisiken in realen Text- und Videoszenarien zu identifizieren. Damit bietet euch das Modell eine robustere Grundlage, um Sicherheitsrisiken proaktiv zu minimieren, bevor der Roboter eine physische Aktion ausführt.
Schaut doch mal im Blogbeitrag bei Google Deepmind vorbei, denn dort zeigt man viele weitere Beispiele und Anwendungen aus den Testumgebungen. Laut Deepmind hat man sehr große Fortschritte gemacht und befindet sich im selbst gesteckten Zeitplan. Mit den ersten Gemini-Robotern ist in den nächsten Monaten zwar noch nicht zu rechnen, doch die Entwicklung schreitet schnell voran, sodass es auch Überraschungen geben kann.
Für eure eigenen Entwicklungen und Tests ist Gemini Robotics-ER 1.6 ab sofort über die Gemini API und das Google AI Studio zugänglich. Dort findet ihr auch vorbereitete Entwickler-Colabs, die euch zeigen, wie ihr das Modell konfiguriert und für eure spezifischen Aufgaben im Bereich des verkörperten Denkens optimiert.
» Gemini in Google Home: Großes Update bringt viele neue Funktionen rund um Musik, Listen und Termine
Letzte Aktualisierung am 23.03.2026 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter