Den KI-ChatBots und den darunter agierenden KI-Modellen wird mittlerweile sehr viel zugetraut, denn sie geben sich gerne allwissend und kennen auf jede Frage eine vermeintlich passende Antwort. Doch sie haben auch Schwachstellen, die überraschend trivial sind und derzeit wieder für Schlagzeilen sorgen: KI-Modelle wie Gemini sind kaum dazu in der Lage, eine analoge Uhr zu lesen oder darzustellen.



Es gibt im digitalen Bereich kaum etwas, für das sich eine KI nicht nutzen lassen würde – das ist zumindest die Überzeugung vieler Anbieter und Nutzer. Tatsächlich erscheinen viele KI-Antworten logisch und vertrauenerweckend, auch wenn sie das oftmals gar nicht sind. Praktisch alle Anbieter warnen im Kleingedruckten vor der Zuverlässigkeit und Dienste wie Google Gemini bieten gar einen nachfolgenden Faktencheck per Google Websuche an.

KI-Modelle können die Uhr nicht lesen

Obwohl viele große KI-Modelle auch eine visuelle Komponente haben und sowohl Bilder erstellen als auch erkennen können, sind sie mit einer vermeintlich simplen Aufgabe überfordert: Sie können die Uhr nicht lesen. Genau gesagt die analoge Uhr mit ihren Zeigern. In zahlreichen Testläufen hat sich gezeigt, dass selbst sehr deutlich ablesbare Uhrzeiten von Gemini und Co schlicht nicht erkannt werden können.

In der unten eingebundenen Infografik könnt ihr sehen, wie sich die KI-Modelle beim Ablesen der Uhrzeit schlagen. Dabei gab es einen simplen Versuchsaufbau: Den KI-ChatBots wurde ein Foto einer Uhr oder eine Grafik vorgelegt und sie sollten lediglich sagen, welche Uhrzeit das Gerät zeigt. Offenbar kommt in diesem Bereich mehr Raten als Wissen zum Einsatz, wie sich in der folgenden Statistik zeigt.









Der Klare Gewinner in diesem Test ist das KI-Modell Qwen3 mit einer Trefferquote von 39,4 Prozent. Das bedeutet, dass nur etwas mal als jeder dritte Versuch die korrekte Uhrzeit ergeben hat. Zum Vergleich: Beim Menschen liegt die Trefferquote bei etwa 91 Prozent. ChatGPT kommt in der fünften Generation auf 32,8 Prozent, Gemini in der aktuellen 3 Pro auf 28,9 Prozent und in der vorherigen 2.5 Pro auf nur 18,9 Prozent. Google hat zumindest einen sehr großen Sprung gemacht.

Warum können KIs die Uhr nicht lesen?

Die Ergebnisse „schockieren“, sind aber gar nicht so überraschend, wie man meinen würde. Es lässt sich mit der Arbeitsweise der KI-Modelle begründen, die auf Mustern basieren und bekannte Dinge auswerten sowie kombinieren. Weil es schlicht nicht genügend Bildmaterial von Uhren zu jeder Uhrzeit eines Tages inklusive exakter Zeitangabe gibt, haben sie keinen Vergleich. Problematisch ist, dass oftmals die Uhrzeit 10:10 in Produktfotos zum Einsatz kommt, die dadurch auch bei der Bildgenerierung von Uhren dominiert (siehe das Artikelbild dieses Artikels).

Fraglich allerdings, warum die KI nicht genügend Logik entwickeln kann, um eine Handvoll Uhrzeiten auszuwerten und anschließend selbst ablesen zu können. In allen anderen Bereichen gibt es Logiken, Kombinationen oder Abschätzungen. Warum nicht bei der Uhr? Wir dürfen gespannt sein, wann das erste KI-Modell sich dieser Aufgabe nicht geschlagen geben muss.

[Der Standard]

