Gemini: KI-Videogenerator, Bildgenerator, Podcasts und virtuelle Welten – Googles KI-Modell ist stark aufgestellt
Google ist mit dem KI-Modell Gemini ein sehr großer Wurf gelungen, der immer wieder durch neue Funktionen und Produkte ausgebaut wird – zuletzt vor allem im Medienbereich. Schon seit einigen Monaten zeigt sich, dass sich die von Google gewählte Multimodalität mehr als bezahlt macht und dafür gesorgt hat, dass eine echte Vormachtstellung aufgebaut wird. Gemini ist in dieser Kategorie kaum zu schlagen.
Als Google das KI-Modell Gemini gefühlt recht eilig aus der Taufe gehoben hat, war das ohne Frage ein großes Risiko. Die Leistungen waren überschaubar, Google entschuldigte sich fast schon vorab für den Status des Projekts und intern wurde gar auf höchster Ebene vor dem verfrühten Release gewarnt. Doch man ist das Risiko eingegangen, ging in puncto KI-ChatBot und Bildgenerierung gegen ChatGPT unter, und konnte erst ab den Versionen 2.x so richtig nachlegen. Dann aber mit Vollgas.
Mittlerweile gehört Gemini zu den besten KI-ChatBots, baut den Funktionsumfang und die Anzahl der angebundenen Produkte immer weiter aus und ist in so vielen Bereichen aktiv, dass man allein schon durch die Reichweite die Konkurrenz um Längen überflügelt hat. Erst vor wenigen Tagen hatte ich die offene Frage gestellt, was Gemini eigentlich nicht kann, denn das KI-Modell ist in jedem heute denkbaren Bereich unterwegs und liefert stets überzeugende Leistungen.
Die Verbesserungen des KI-ChatBot und dessen zahlreiche angebundene Produkte für die KI-Generierung in Textform kommen in so kurzer Zeit, dass sie gar nicht mehr angekündigt werden. Im Textbereich ist man aber auch durch Tools wie NotebookLM oder die Integrationen in GMail, Docs und Co stark aufgestellt bzw. sammelt so viel KI-Erfahrungen, dass mehr Training kaum noch möglich wäre.
Der Medienbereich ist Geminis wahre Stärke
Die Verarbeitung von Text in jeglicher Form für die Eingabe und Ausgabe ist für ein KI-Modell elementar. Doch Gemini profitiert vor allem in den letzten Monaten sehr stark von der Multimodalität. Es behandelt Bilder und Videos sowie Audio und Programmiersprachen gleichwertig wie Text – und das ganz offensichtlich bis in die untersten Ebenen. Das macht sich längst bezahlt, denn der Bildgenerator Imagen hat wirklich große Schritte gemacht und ist mit seiner Vorgängerversion überhaupt nicht vergleichbar.
Zu beeindrucken weiß Google auch mit dem Videogenerator Veo in der Version 2 und 3, der realistische Videos innerhalb von Sekunden erzeugt und diese Stärken auch noch für eine breite Nutzerbasis zugänglich macht. Mit dem KI-Filmtool Flow werden diese Stärken noch einmal auf eine ganz neue Ebene gehoben und ganze Filme erstellt. Auch das für eine vergleichsweise breite Nutzerbasis. Kürzlich kamen dann noch die endlosen virtuellen Welten von Genie 3 dazu und rein medial scheint damit jede Grenze überwunden zu sein.
Es mag in Einzelbereichen andere Hersteller geben, die noch bessere Ergebnisse liefern. Doch kein Unternehmen ist so breit aufgestellt wie Google, ist in allen Bereich mit beeindruckenden Ergebnissen unterwegs und liefert das dann auch noch für sehr viele Nutzer, integriert es zur eigenen Promotion in immer mehr Produkte. Und was nicht ganz unwichtig ist: Nur Google verdient Geld mit KI.
Letzte Aktualisierung am 2025-12-02 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung! Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.
GoogleWatchBlog bei Google News abonnieren | GoogleWatchBlog-Newsletter