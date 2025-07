Googles KI-Modell Gemini ist von Grund auf multimodal aufgebaut und hat dementsprechend eine starke mediale Komponente, die sowohl Bilder als auch Videos analysieren oder generieren kann. Wir haben bereits über die neue Gemini-Bilderkennung berichtet und heute wollen wir euch zeigen, was die mit Gemini 2.5 gestartete Segmentierung alles leisten kann.



Gemini ist mittlerweile sehr gut darin, Bilder zu generieren und diese an die Wünsche des Nutzers anzupassen. Es kann Bilder erstellen, in Gestalt vom Google Fotos Magischen Editor eine ganze Reihe von Bildbearbeitungen vornehmen oder auch Dinge entfernen, hinzufügen und verschieben. All das basiert auch darauf, dass bestehene Bilder so umfangreich wie nur möglich erkannt und analysiert werden. Und dabei ist man längst über die reine Objekt- und Personenerkennung hinaus.

Wir hatten erst vor wenigen Tagen über die neue Gemini KI-Bilderkennung berichtet, die mit Gemini 2.5 auf eine intelligente Segmentierung auf Basis einer umfangreichen Bildanalyse setzt. Dabei geht es darum, dass Gemini nicht nur einzelne Objekte und Personen auf einem Bild erkennt, sondern ein tiefes Verständnis von der gesamten Szenerie hat. Ihr könnt Gemini zum Beispiel bitten, das „dritte Buch von Links“ auszuwählen oder die „am meisten verwelkte Rose im Bouquet“. Klingt für einen Menschen simpel, erfordert aber eine ganze Reihe von Zwischenschritten.

Die Gemini-KI kann damit mittlerweile sehr gut umgehen, wie man auf den in diesem Artikel eingebundenen Beispielen sehr gut sehen kann. Auf diesen ist das Ergebnis der jeweiligen Anfrage sowie die Anfrage selbst zu sehen. Daran zeigt sich, dass die Anfragen sehr knapp gehalten werden können und ein erhebliches Grundwissen seitens der KI vorausgesetzt werden kann.











Markiere die Person, die die Frisbee-Scheibe hält.



Markiere die Personen, die nicht sitzen. Obwohl es nicht vollständig zu sehen ist, wird auch die verdeckte stehende Person markiert.



Markie den Bereich, der gereinigt werden sollte. Gemini erkennt automatisch, welcher Bereich des Bildes eine Verschmutzung zeigt.



Markiere die Baklava mit Pistazie. Gemini erkennt nicht nur anhand der Form und Farbe das Gebäck, sondern bezieht auch die aufgestellten Hinweissschilder mit ein.











Finde den Gebäude-Schatten. Obwohl das Gebäude selbst gar nicht zu sehen ist und auch weitere Schatten abgebildet sind, erkennt Gemini die Form des unbekannten Gebäudes.



Welche Person trägt keinen festen Helm. Eine solche Anfrage soll wohl zukünftig auch zur automatischen Überwachung der Arbeitssicherheit zum Einsatz kommen.



Welche Häuser sind beschädigt. Unter anderem für Versicherungen will man die Erkennung von beschädigten Objekten nutzen.

Für die Segmentierung kommt Gemini außerdem die mit Google Fotos über Jahre antrainierten Stärken zur Hilfe, denn die jeweiligen Objekte können nicht mehr nur umrahmt, sondern sehr exakt ausgewählt werden. Schaut euch die Fotos noch einmal an, bei denen jedes Element sehr sauber markiert wird.

