Google hat das KI-Modell Gemini vor gerade einmal zweieinhalb Jahren gestartet und damals den ersten Nutzern als KI-ChatBot zugänglich gemacht. Was als intelligenter Nachfolger des Google Assistant begonnen hat, ist heute sehr viel mehr und profitiert neben den großen Datenmengen vor allem von der tief integrierten Multimodalität. Schon heute kann man fragen: Gibt es eigentlich etwas im generativen Bereich, das Gemini nicht kann?



Noch im Jahr 2023 sah es für den einstigen KI-Pionier Google nicht gut aus, denn man wurde vom Erfolg von ChatGPT und Co regelrecht überrannt und hatte dem zunächst nichts entgegenzusetzen. Der Google Assistant war/ist ein Witz dagegen und das eilig zusammengeklöppelte Bard (wer erinnert sich noch) konnte weder qualitativ noch funktionell in irgendeiner Form mithalten. Also wurde Google-intern alles auf Links gedreht, das gesamte Unternehmen auf die KI-Entwicklung ausgerichtet und seitdem der Fuß nicht mehr vom Gaspedal genommen.

Gemini macht rasante Schritte

Irgendwann wurde Bard zu Gemini, was den KI-ChatBot auf ein neues Level gehoben hatte. Mit Gemini 2.x machte man einen enorm großen Schritt in puncto Verständnis und Ausgabe. Man zog mit der Konkurrenz gleich, blieb aber nicht an diesem Punkt stehen. Denn in sehr kurzen Abständen wurde der Funktionsumfang ausgebaut. Sowohl in Textform als auch in Medienform und beim Verständnis sowie der Ausgabe in allen nur denkbaren Formaten.

Heute kann Gemini Antworten geben, Texte erstellen, Konzepte und Ideen liefern, Apps und Webseiten entwickeln, Designvorschläge geben, beliebige Dokumentdateien analysieren und diese für euch zusammenfassen. Mit Canvas lassen sich ganze Arbeitsbereiche erschaffen, in denen mit Gemini interagiert wird. Und das sind nur die Funktionen in Textform, die direkt in der Haupt-App zur Verfügung stehen. Seit dieser Woche kann Gemini sogar illustrierte Bilderbücher erstellen. Stark, aber wirklich zu beeindrucken weiß Gemini im Medienbereich.









Gemini profitiert von Multimodalität

Google hatte schon von Beginn an betont, dass Gemini multimodal konzipiert ist und keinen Unterschied zwischen Text, Audio, Video oder Programmcode macht. Und das bemerken wir heute. Mit Imagen kann Gemini Bilder generieren, mit Veo 2 und Veo 3 Videos erstellen und mit Gemini Flow werden aus den Bildern, den Videos und der Gemini-KI gar ganze Filme. Doch damit ist es noch immer nicht ausgeschöpft.

Vor wenigen Tagen wurde das neue Gemini Genie 3 für virtuelle Welten gestartet, mit dem die mediale Darstellung kein Ende mehr kennt. Nutzer können durch die Welt schreiten und diese jederzeit beeinflussen.

Dazu kommen noch die Stärken von NotebookLM, das als Dokumentplattform überraschend stark im medialen Audio- und Videobereich unterwegs ist, der kommende Einsatz von Gemini auf Smart Glasses, die starken Integrationen in unzählige Google-Apps und dann stehen sogar schon die Gemini-Roboter vor der Tür.

Und so schließe ich den Artikel damit, wie er begonnen hat: Was kann Gemini eigentlich nicht?

» Genie 3: Googles neues KI-Modell kreiert virtuelle Welten mit nur einem Prompt – der absolute Wahnsinn (Video)

» Gemini Veo 3: Der perfekte Prompt für Einsteiger und Profis – Google Merkblatt für den KI-Videogenerator

Letzte Aktualisierung am 2025-08-09 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.