Google arbeitet seit einiger Zeit an einem interessanten Projekt rund um Gemini, das den KI-ChatBot noch breiter einsetzbar machen soll und dafür einen verheißungsvollen Namen gewählt hat: Jarvis. Doch im ersten Anlauf dürfte Jarvis wohl eher das Prädikat „furchtbar ineffizient“ erhalten, denn im Hintergrund werden zur Funktionalität enorme Umwege beschritten. Es ist nicht so, dass Google das nicht schon einmal versucht hätte.



Gemini kann in seiner Rolle als KI-ChatBot sehr viele Aufgaben übernehmen und den Nutzer in zahlreichen Lagen sowohl funktionell als auch mit Antworten behilflich sein. Durch die Integration einiger Google-Apps ist der Funktionsumfang weiter gewachsen und es ist davon auszugehen, dass man sich schon bald für Erweiterungen von Drittanbietern öffnen wird. Doch selbst wenn man in diese Richtung geht, wird Gemini nur die gebotenen Schnittstellen nutzen können.

Um Gemini potenziell für alle Aufgaben zu öffnen, die der Nutzer in mühevoller Arbeit selbst erledigen könnte, hat man den Chrome-Browser als neues Ziel ausgemacht und sich für das Projekt einen verheißungsvollen Namen ausgedacht, der nicht nur Marvel-Fans bekannt sein dürfte: Jarvis. Jarvis soll eine direkte Anbindung an den Chrome-Browser haben und die Möglichkeit bieten, geöffnete Webseiten oder Web-Apps zu verstehen, auszulesen und auch zu steuern.

Auf dem Papier klingt die Idee gut: Fast alle digitalen Wege lassen sich im Browser erledigen und selbst das kleine Restaurant um die Ecke bietet die Online-Tischreservierung oder der Friseur die Online-Terminbuchung. Nutzer können Gemini daher beispielsweise mit solchen Terminbuchungen beauftragen und die KI wird die entsprechenden Knöpfe auf der Webseite drücken, um dies durchzuführen. In der Theorie genial, in der Praxis hingegen aber mit Sicherheit furchbar ineffizient.









Google versucht es noch einmal

Schon vor einigen Jahren hatte Google dem Assistant die Möglichkeit verpasst, Anrufe im Namen des Nutzers zu führen und Webseiten-Formulare auszufüllen. Das war damals schon extrem ineffizient und in den meisten Fällen sollen Google-Mitarbeiter diese Aufgaben überwacht oder selbst ausgeführt haben. Mit Gemini versucht man das Ganze noch einmal und hofft wohl darauf, dass die KI sehr schnell dazu lernt. Rein technisch könnte das funktionieren, aber der Ablauf im Hintergrund ist wahnsinnig aufwendig.

Denn von der Schnittstelle des Anbieters (beispielsweise das Restaurant) bis zur Gemini-Absicht sind so viele Zwischenschritte zu tun, die für den Menschen und nicht die KIs entworfen sind. Die Webseite ist eine benutzerfreundliche Oberfläche für Menschen und gibt die Informationen an den Server weiter. Diese Webseite muss erst einmal von Gemini geöffnet werden. Dann von Gemini verstanden werden. Dann von Gemini ausgefüllt werden und noch einmal von der KI überprüft werden. Es ist, als wenn man aus einer Deutsch-Englisch-Übersetzung eine Deutsch-Japanisch-Chinesisch-Italienisch-Englisch-Übersetzung macht. Dass am Ende nur mit viel Glück das dabei herauskommt, was man eigentlich beabsichtigt hätte, ist nicht überraschend.

Sicherlich soll das Jarvis-Konzept nur eine Zwischenlösung sein und Anbieter von Klein bis Groß dazu motivieren, Gemini-Schnittstellen zu bieten. Dennoch halte ich diesen Zwischenschritt für wenig klug und so fehleranfällig, dass es schlussendlich negativ auf Gemini zurückfallen wird. Denn während man kleinere Fehler in Gemini-Antworten problemlos entschuldigt, wird man vielleicht schnell etwas ungehalten, wenn man im Restaurant ankommt und die Reservierung für einen völlig anderen Termin oder gar nicht durchgeführt wurde…

Letzte Aktualisierung am 2024-10-30 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung!