GoogleWatchBlog

Gemini: Google zeigt die starke neue KI-Bilderkennung – bringt tiefes Verständnis und exakte Auswahl (Galerie)

» Web-Version «

Googles KI-Modell Gemini hat eine sehr starke mediale Komponente, das dürfte spätestens seit dem Start der Videogeneratoren vielen Nutzern bekannt sein. Aber nicht nur bei der Generierung macht man weiter Fortschritte, sondern auch in der entgegengesetzten Richtung kann man jetzt wieder auftrumpfen: Dank eines tiefen Bildverständnisses kann Gemini Szenerien verstehen und Bildbestandteile detailliert auswählen.


Die KI-Bilderkennung ist fast schon ein alter Hut, denn auf Basis von umfangreichen Musterabgleichen steht diese schon seit vielen Jahren in Produkten wie Google Fotos zur Verfügung. Auch Gemini kann Autos und Bäume auf Bildern erkennen, aber jetzt geht man einen Schritt weiter: Mit der optimierten Segmentierung in Gemini 2.5 hat das KI-Modell nun die Fähigkeit, einzelne Bereiche anhand einer Beschreibung auszuwählen.

Als Beispiel gibt man an, dass Gemini nicht nur nach „Auto“ suchen soll, sondern nach dem „Auto, das am weitesten entfernt ist“. Klingt simpel, erfordert aber ein tiefes Verständnis des Gesamtbildes. Als weitere Beispiele nennt man, „Die Person, die den Regenschirm hält“, das „dritte Buch von Links“ oder auch die „am meisten verwelkte Blume im Bouquet“. All diese Dinge kann Gemini verstehen, das Bild entsprechend durchsuchen und die Bereiche bzw. Segmente markieren.

Aber nicht nur die Erkennung des betroffenen Bereichs hat man optimiert, sondern auch die Markierung und Auswahl selbst. Statt wie bisher einfach nur Rechtecke darüberzulegen, können Personen, Objekte oder zusammenhängende Segmente sehr detailliert markiert und verwendet werden. Das ist sowohl für die Bildbearbeitung als auch für die Bildverarbeitung von grundlegender Bedeutung.




Gemini kann von welken Blumen über schmutzige Stellen am Tisch bis zum Geschmack von unterschiedlichen abgebildeten Gebäckstücken sehr viel erkennen. Dabei handelt es sich aber nicht mehr um eine Tech-Demo, sondern ist fester Bestandteil von Gemini 2.5 und sicherlich auch grundlegend dafür, dass das KI-Modell schon sehr bald auf vielen Smart Glasses zum Einsatz kommen soll. Google nennt auch Einsatzbereiche von der Versicherung bis zum Arbeitsschutz.

» Google Translate & Gemini: Übersetzer integriert die KI noch tiefer in die Live-Übersetzungen (Galerie & Video)

[Google Developers Blog]


Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren