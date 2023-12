Bei Google steht die Künstliche Intelligenz seit vielen Jahren im Mittelpunkt vieler Aktivitäten, doch bis zu diesem Jahr ist sie abseits der Buzzword-Nutzung kaum aufgefallen. Das hat sich mittlerweile geändert und mit Gemini hat man jetzt einen Meilenstein bei der KI-Entwicklung verkündet, denn man will das bisher stärkste KI-Modell überhaupt entwickelt haben. Dieses ist multimodal und schlägt in vielen Tests nicht nur ChatGPT, sondern auch den Menschen.



In puncto Künstlicher Intelligenz hat Google in diesem Jahr riesige Fortschritte gemacht und zahlreiche praktische Funktionen gestartet, die von der Websuche über Workspace bis hin zu den Kameras und Google Fotos zur Verfügung stehen. Die darunterliegenden KI-Modelle dürften allerdings schon lange in der Schublade gelegen haben und nur nicht zum Einsatz gekommen sein. Doch der seit Beginn des Jahres explodierende ChatGPT-Hype zwang Google dann doch zu zahlreichen Aktivitäten.

Funktionell wird es genauso weitergehen, doch unter der Haube macht man einen riesigen Schritt und hat mit Gemini nun ein völlig neues KI-Modell angekündigt, das die bisherigen Anläufe in den Schatten stellen soll – nicht nur die aus eigenem Hause. Denn Gemini ist das bisher mächtigste KI-Modell und wurde von Beginn an multimodal entwickelt, was in dieser Größenordnung laut Googles Ankündigung wohl einzigartig ist. Multimodal bedeutet, dass es nicht nur auf Text basiert und die anderen Medienformen integriert, sondern alle gleichermaßen behandelt.

Und so soll Gemini Text, Bild, Video, Audio und auch Code generalisieren und gleichermaßen sowohl beim Verständnis als auch der Ausgabe von Inhalten auf diese Typen zurückgreifen können. Vor allem das visuelle Verständnis dürfte es sein, das Gemini einen Vorsprung verschafft. Denn statt Bilder einfach nur mehr oder weniger in Textform zu übersetzen und damit zu arbeiten, kommt das Bild und dessen Inhalt als Ganzes zum Einsatz. Wie gut das funktioniert, muss sich in den nächsten Monaten abseits der geschönten Demos zeigen.









Gemini-Daten und Tests

Laut Googles Ankündigung schlägt Gemini bei standardisierten KI-Tests in vielen Fällen das bereits etablierte ChatGPT in der aktuellen Version 4. Bei Sprachmodellen kommt Gemini wohl auf eine Erfolgsrate von 90 Prozent, während es bei GPT nur 86,4 Prozent sind. In 30 von insgesamt 32 Tests schlägt Gemini ChatGPT. Das muss natürlich noch unabhängig überprüft werden. Aber nicht nur ChatGPT gilt es zu schlagen, sondern auch den Menschen. Und auch hier soll man in einigen Testkategorien weit vor der menschlichen Leistung gelegen haben. Im Detail wird das aber noch ausgeführt.

Viele weitere Daten und Infos findet ihr im Google-Blog sowie auf der Gemini-Webseite. Hier noch einiges an Videomaterial, zum besseren Verständnis von Gemini.









Gemini mit den verschiedenen Datentypen









Die gestrige Ankündigung fiel sehr umfangreich aus und wurde von Google mehrfach und in vielen Blogposts sowie an weiteren Stellen als Meilenstein bezeichnet. Man möchte einen neuen Hype aufbauen, doch zumindest gefühlt hat das bisher nicht ganz so gut funktioniert. Aber das muss es auch gar nicht, denn Google-Produkte sollen nicht aufregend sein, sondern den Nutzern helfen und den Umgang so komfortabel wie möglich machen. Ich denke, dass wir vor allem im visuellen Bereich (Google Fotos / Pixel Kamera) sowie bei der Recherche (Websuche) im nächsten Jahr sehr große Sprünge sehen werden.

Gemini wird in drei verschiedenen Versionen angeboten:

Gemini Ultra – unser größtes und leistungsstärkstes Modell für hochkomplexe Aufgaben.

– unser größtes und leistungsstärkstes Modell für hochkomplexe Aufgaben. Gemini Pro – unser bestes Modell zur Anwendung in einem breiten Aufgabenspektrum.

– unser bestes Modell zur Anwendung in einem breiten Aufgabenspektrum. Gemini Nano – unser effizientestes Modell für Aufgaben, die direkt auf dem Gerät verarbeitet werden.

Gemini Pro wird bei Bard zum Einsatz kommen, vorerst allerdings nur in US-Englisch. Gemini Nano startet ab sofort als KI-Modell auf den Pixel 8-Smartphones und Gemini Ultra ist für sehr komplexe Aufgaben konzipiert. Letztes bleibt allerdings noch unter Verschluss, weil es die internen Sicherheitsrichtlinien noch nicht erfüllt – was immer das auch bedeuten mag. Im nächsten Jahr soll Gemini Ultra unter anderem für Bard Advanced freigeschaltet werden, bei dem es sich wohl um ein neues kostenpflichtiges Modell handeln dürfte – dazu hat man aber noch keine Details genannt.

[Google-Blog & Gemini Webseite]