Gemini 1.5: Google demonstriert beeindruckende neue KI – analysiert Videos, Code und Transkripte (Videos)

Jens

» Web-Version «
vor 2 Jahren

GoogleWatchBlog als bevorzugte Nachrichtenquelle festlegen

Google hat vor wenigen Tagen eine breitere Verfügbarkeit von Gemini 1.5 angekündigt, das deutlich leistungsfähiger als der Vorgänger sein soll. In Tokens gemessen soll Gemini 1.5 um ganze 3500 Prozent mehr Leistung bringen als der Vorgänger. Und damit das nicht nur bei der Theorie bleibt, hat Google einige Beispielvideos veröffentlicht, in denen Gemini sowohl Videos als auch Programmcode sowie umfangreiche Transkripte analysiert.

Die erste Ankündigung von Gemini 1.5 liegt schon einige Wochen zurück, doch erst vor wenigen Tagen hat man das mächtige Sprachmodell in einer Preview für interessierte Entwickler geöffnet. Nach Googles Angaben ist Gemini 1.5 Pro mit einer 35-fach erhöhten Leistung im Vergleich zum Vorgänger schon jetzt mächtiger als das kostenpflichtige Gemini 1.0 Ultra. Wir können uns also ausmalen, wie mächtig die Ankündigung von Gemini 1.5 Ultra ausfallen könnte.

Doch wir wollen uns erst einmal die Leistung von Gemini 1.5 anschauen, die Google in der bald breit verfügbaren Pro-Version mit einigen Videos zur Schau gestellt hat. Gemini soll seine Stärke nicht nur in der Rechenpower ausspielen, sondern vor allem mit dem multimodalen Modell. Laut Google ist Gemini das erste und derzeit einzige wichtige KI-Modell, das von Grund auf multimodal entwickelt wurde. Das bedeutet, dass Gemini Text, Video, Audio und Programmcode gleichwertig behandeln kann. Videos werden nicht auf Bilder aufgeteilt und deren Inhalt erkannt, sondern der gesamte Kontext erfasst.

Bei den folgenden Videos ist zu beachten, dass Google die Aufgaben mit Gemini 1.5 Pro und einer Million Tokens durchgeführt hat. Nach eigenen Angaben bietet man ausgesuchten Entwicklern schon jetzt Zugang zu einem Modell mit zehn Millionen Tokens – wodurch das Ganze sicherlich noch weiter optimiert werden könnte.

Analyse von umfangreichen Transkripten

Man hat Gemini das 402-seitige Transkript der ersten Mondlandung analysieren lassen und stellt zu diesem konkrete Fragen. Zuerst soll Gemini drei lustige Textstellen heraussuchen und erklären – etwa, woran eine KI schon einmal scheitern kann. Aber Gemini bleibt nicht nur bei der Textform, sondern kann die Analyse auch mithilfe von Bildern durchführen. So lädt man eine Strichzeichnung von einem angeschrägten Fuß hoch und fragt Gemini, an welcher Stelle das vorkommt.

Die KI erkennt richtig, dass es sich dabei um den berühmtesten Schritt aller Zeiten handelt und sucht die entsprechende Textstelle inklusive Erklärung hinaus.

Analyse eines langen Videos

Man hat einen 44-minütigen Buster Keaton-Klassiker hochgeladen und lässt Gemini diesen analysieren. Die KI kann also das gesamte Video analysieren und verstehen. So kann Gemini eine konkrete Szene heraussuchen („in welcher Szene wird ein Zettel aus einer Tasche genommen?“) und diese auch noch mit weiteren Details erklären. Man führt aber auch das weiter und kombiniert Bild mit Video. Es wird wieder eine Strichzeichnung gezeigt, die Gemini im Video finden soll. Auch das funktioniert wie erwartet.

Analyse und Optimierung von Programmcode

Gemini bekommt Quellcode mit bis zu 100.000 Zeilen vorgesetzt und soll diesen sowohl verstehen als auch optimieren oder verändern. So kann Gemini etwa einen Slider hinzufügen, um die Animation der Straßenbahn neben dem Haus beliebig anpassen zu können. Der Code soll funktional sein und tatsächlich das getan haben, was verlangt wurde.

https://www.googlewatchblog.de/wp-content/uploads/Gemini-1.5-video.mp4?_=1

Ich denke, dass an der Leistungsfähigkeit von Gemini nicht gezweifelt werden muss – vor allem nicht in dieser Version. Viel wichtiger ist aber die Zuverlässigkeit, die gerade im Textbereich bekanntlich zu Wünschen übrig lässt – und das nicht nur bei Google. Denn während die Analyse von harten Fakten wie Transkripten, Videos oder Programmcode eher statisch ist, geht es bei allen anderen Textaufgaben oft darum, unzählige Quellen zusammenzuführen. Und das ist die Schwachstelle, an der alle KIs leiden.

Dennoch hat Google mit Gemini 1.5 wieder einen großen Schritt getan und es ist zu erwarten, dass es in diesem Jahr noch viele weitere sehr große Schritte geben wird. Wie bedeutsam Gemini derzeit für Google ist, zeigt sich schon an der Tatsache, dass praktisch alle größeren Ankündigungen im Google-Blog von CEO Sundar Pichai geschrieben wurden, der sich sonst bekanntlich eher zurückhält.

[Google-Blog]

Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren