Dieses Bild wurde mit der KI Midjourney erstellt. Der Prompt lautete: "illustration of a friendly looking robot, presenting newspapers, looking at the camera. --ar 3:2"
Midjourney/Der Standard

Liebe Mitmenschen,

mehr als 17 Jahre ist es inzwischen her, dass Google sein Übersetzungstool veröffentlichte. Damals spuckte es oft absurde Sätze aus, bei langen und komplexen Sätzen kam Google Translate oft grammatikalisch ins Stolpern. Doch seitdem hat sich viel getan: Die Startschwierigkeiten sind lange passé, das Tool kann nun auch mithilfe der Kamera Schriften in Echtzeit übersetzen. Für viele ist die einst belächelte App zum täglichen Begleiter geworden – vor allem auf Reisen.

Andere schwören auf DeepL. Die direkte Konkurrenz von Google Translate funktioniert oft besser, die Texte klingen natürlicher. Das Unternehmen aus Köln hat inzwischen 400 Mitarbeitende und ist zum Unicorn aufgestiegen – so werden ehemalige Start-ups bezeichnet, die mit mehr als einer Milliarde US-Dollar bewertet werden.

Doch all diese Entwicklungen verblassen vor dem Tool, das in den letzten Tagen auf Social Media die Runde machte. In einem Video erklärt der amerikanische Regisseur und Influencer Jon Finger, dass er weder Französisch noch Deutsch spricht, aber gleich eine KI-basierte App testet, die ihn genau diese Sprachen sprechen lässt.

Auch das Ergebnis zeigte Finger in seinem Video: Das Tool mit dem Namen HeyGen übersetzte nicht nur das Gesagte auf Deutsch und Französisch, sondern imitierte auch seine Stimme und passte seine Lippenbewegungen an die gesprochenen Laute an.

Bei HeyGen arbeiten gleich mehrere KI-Techniken zusammen: Spracherkennung, automatische Übersetzung, Sprachsynthese und ein sogenanntes Generative Adversarial Network (GAN), das die Bewegungen des Gesichts und des Mundes analysiert und verändert. Letzte Technik wurde vor allem durch "Deep Fakes" bekannt.

Dass solche Tools auch Gefahren bergen, dürfte klar sein. Momentan sollte das Risiko, dass das Internet mit täuschend echten HeyGen-Propagandavideos geflutet wird, aber gering sein. Zum einen merkt man selbst bei ungenauem Hinsehen und -hören, dass hier ein Computer am Werk ist. Zum anderen ist das Tool derzeit dauerhaft überlastet.

Doch wie sieht es in der Zukunft aus? Ist der Universalübersetzer nun da, mit dem Sprachprobleme endlich der Vergangenheit angehören? Wohl eher nicht. Ich habe vergangenes Jahr schon einmal aufgeschrieben, warum Echtzeit-Übersetzer so schwer umzusetzen sind. Zum einen muss das Gesprochene zuerst in Text übersetzt werden – dort liegt die erste Fehlerquelle. Denn die Audioaufnahme liegt wohl in den seltensten Fällen in Studioqualität vor. Auch wenn die KI-Spracherkennung immer besser darin wird, Nebengeräusche herauszufiltern und auch aus Aufnahmen in schlechter Qualität viel herauszuholen – Gespräche am Nebentisch und Dialekte verwirren die Software.

Dazu kommt, dass sich die Bedeutung eines Wortes oft erst aus dem Kontext ergibt. Ob eine KI das deutsche Wort "Schloss" mit "lock" oder "castle" übersetzt, kann sie erst wissen, wenn weitere Satzbestandteile bekannt sind. Videochats mit fremdsprachigen Freunden, in denen jeder in seiner eigenen Muttersprache spricht, wird es deshalb wohl nicht so schnell geben – zumindest nicht verzögerungsfrei.

KI-basierte Übersetzungstools verbrauchen sehr viel Rechenleistung und funktionieren deshalb nicht in Echtzeit. Das kostet – und zwar nicht nur Geld, sondern auch Strom und Wasser, das für die Kühlung der Rechenzentren gebraucht wird. Laut Schätzungen verbraucht ein KI-Chatbot für eine durchschnittliche Unterhaltung einen halben Liter Wasser. Bei Microsoft ist der Wasserverbrauch aufgrund des KI-Hypes zuletzt um ein Drittel gestiegen.

Außerdem berichteten wir in dieser Woche über eine Geschmacksrichtung, die Coca-Cola mithilfe einer KI entwickelt hat, über die Schwierigkeit, KI-generierte Texte zu erkennen, und über Googles neues KI-Modell Gemini, das kurz vor der Veröffentlichung stehen soll. Wir haben auch die ORF-"Sommergespräche" mit den Chefinnen und Chefs der österreichischen Parlamentsparteien mithilfe künstlicher Intelligenz analysiert und herausgefunden: Herbert Kickl war schlecht gelaunt.

Bleiben Sie menschlich, und bleiben Sie uns gewogen.

Herzlichst,

Philip Pramer, Ressortleiter Edition Zukunft