Googles Videoplattform YouTube bietet schon seit vielen Jahren die Möglichkeit, Videos mit verfügbaren Untertiteln automatisch zu übersetzen und diese in der Zielsprache anzuzeigen. Jetzt hat man den nächsten Schritt angekündigt, bei dem der Umweg über die Untertitel nicht mehr notwendig ist, denn durch die KI-Synchronisierung Aloud soll die Tonspur automatisch übersetzt werden.



Die allermeisten YouTuber drehen ihre Videos in nur einer Sprache, wobei die meisten auf ihre Muttersprache setzen dürften – mit Englisch hat man dann natürlich die potenziell höchste Reichweite. Wer der gebotenen Sprache nicht mächtig ist, kann nur auf automatische oder manuell hinzugefügte Untertitel hoffen, die sich dann direkt aus dem YouTube Player heraus automatisch übersetzen lassen. Das funktioniert gut, macht aber genauso viel Spaß wie ein Kinofilm mit Untertiteln zu schauen.

Weil YouTube-Videos üblicherweise nicht synchronisiert werden, will Google das Ganze nun automatisieren. Mit der von der Google-Tochter Area 120 entwickelten Technologie Aloud lassen sich Videos durch die Kombination mehrerer Technologien automatisch synchronisieren. Zuerst wird die Sprache erkannt, was YouTube selbst seit vielen Jahren recht gut hinbekommt und im Laufe der Zeit immer weiter optimiert hat. Danach folgt die Übersetzung des Textes in eine andere Sprache, was ebenfalls für die Google-Algorithmen kein großes Problem ist.

Interessant wird es dann aber im letzten Schritt, den man bisher in der Form nicht bieten konnte. Denn der übersetzte Text wird in einer neuen Audiospur wiedergegeben und als Synchronisierung über das Video gelegt. Und dabei geht es nicht um das Vorlesen von Text, sondern um eine möglichst realistische Einbindung mit passender Tonart, Länge und Positionierung der Textaussagen. Im folgenden Video könnt ihr das beispielhaft sehen.









Das soll aber nur der erste Schritt sein, denn man hat große Pläne und will schon ab dem nächsten Jahr die Qualität deutlich nach oben schrauben. Konkret will man eine Lippensynchronisierung bieten, was auch im professionellen Bereich der Synchronisierung natürlich die Königsklasse und vielleicht auch nicht immer möglich ist. Denn dann geht es darum, die Texte nicht nur korrekt zu übersetzen, sondern auch Längen und Ausdrucksformen so anzupassen, dass sich ein stimmiges Bild ergibt.

Außerdem will man nicht nur mit einer passenden Stimme auftreten, sondern die Stimme des Originals weitestgehend imitieren, so als wenn die Person es selbst eingesprochen hätte. Wie gut das funktionieren kann, muss sich zeigen. Denn das Imitieren von Stimmen ist etwas, das bekanntlich auch in Film und Fernsehen praktisch keine Rolle spielt. Das Ganze will man übrigens nicht den Nutzern zur Selbstübersetzung anbieten, sondern den YouTubern als zusätzliche Technologie, mit der sie selbst kontrollieren können, wie die Videos übersetzt werden.

Zuerst will man das in den Sprachen Englisch, Portugiesisch und Spanisch anbieten, aber die Erweiterung auf neue Sprachen ist ebenfalls schon in Planung.

