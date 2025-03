Das noch recht junge KI-Modell Gemini 2.0 wird von Google in vielen Bereichen eingesetzt und kann dank Multimodalität und hoher Leistungsfähigkeit sehr viele Aufgaben erledigen. Jetzt geht man den nächsten Schritt, der deutlich über die bisher rein digitalen Lösungen hinausgehen und das KI-Modell in die reale Welt bringen soll. Entwickler von Google Deepmind haben nun Gemini Robotics angekündigt und dessen Möglichkeiten in einigen Videos gezeigt.



Seit einiger Zeit kann man das Gefühl bekommen, dass bei Google ohne Künstlicher Intelligenz gar nichts mehr laufen würde, denn man integriert nicht nur simple Funktionen, sondern immer häufiger gleich das gesamte KI-Modell in viele Produkte und Aufgabenbereiche. Vor allem mit dem im vergangenen Jahr vorgestellten Gemini 2.0 hat man sehr große Pläne und will die Plattform allgegenwärtig machen – das haben ranghohe Mitarbeiter bis hin zum CEO in den letzten Monaten mehrfach angekündigt. Bisher dachten wir allerdings, dass das nur für die digitale Welt gilt.

Vor wenigen Tagen hat Google Deepmind überraschend Gemini Robotics vorgestellt, mit dem das KI-Modell erstmals mit der physischen Welt in Berührung kommt. Man vereint die Fähigkeiten des KI-Modells mit den physischen Möglichkeiten eines Roboters und erlaubt es Gemini, diesen vollständig selbst zu steuern. Gemini nimmt die Umgebung bzw. den Arbeitsbereich über die Kameras wahr, erkennt Objekte, deren Abmessungen und kann das Ganze in eine 3D-Welt mit den technisch benötigten Koordinaten umwandeln.

Im nächsten Schritt geht es dann darum, diese Daten zu verstehen, die vom Nutzer gestellte Aufgabe zu verstehen und das Ganze dann in manipulativer Form in die Tat umzusetzen. So kann Gemini mit den Roboter-Armen dann Objekte verschieben, sortieren, etwas würfeln, Dinge hochheben oder gar ein Origami falten. In den folgenden Videos gibt es viele Beispiele, die ihr euch einmal ansehen könnt.

















Solche Demos haben wir natürlich schon vor Jahren gesehen, allerdings ging es damals nicht um die Software, sondern eher um die Robotik. Es ging um die Steuerung der Geräte, den Aufbau der Roboterhände und Ähnliches. Das hat man mittlerweile weitgehend gelöst und jetzt geht es darum, den Robotern ein Gehirn zu verpassen, um Aufgaben selbstständig zu bewältigen. Damit ist man natürlich in einem Bereich unterwegs, der sicherlich Sorgen bei Skeptikern auslösen kann. Denn erstmals wird es der KI möglich, in der realen Welt einen physischen Einfluss zu nehmen.

Diese vollautomatisierte Umsetzung ist ein wichtiger Schritt. Denn Gemini nimmt wohl nur die Aufgabe entgegen und steuert die Roboter-Arme anschließend selbstständig. Objekte werden erkannt, identifiziert, Einzelschritte aus den Aufgaben entnommen und die Arme entsprechend gesteuert. Dabei kommen die laut Google meistentwickelten optischen Fähigkeiten bei einem KI-Modell zum Einsatz, das es den Robotern ermöglicht, noch mehr Real-World-Aufgaben zu lösen als je zuvor.

Interessanterweise arbeitet man jetzt mit dem Robotik-Unternehmen Boston Dynamics zusammen, das vor einigen Jahren noch unter dem Dach von Google war und verkauft wurde. Es ist zu erwarten, dass wir rund um die Google I/O mehr davon sehen werden.

[Google-Blog]