Man wolle die "Reibung reduzieren", erklärte Mira Murati, Technikchefin von OpenAI, zum Beginn des "Spring Update" am Montag. In einer halbstündigen Präsentation stellte der voll auf KI-Entwicklung ausgelegte Konzern nämlich seine Mission vor – und zwar die eigenen Tools möglichst vielen Nutzern zur Verfügung zu stellen und es einfacher zu machen, sie zu verwenden.

Damit war es aber freilich nicht getan, denn man hatte etwas vorzustellen: einerseits die Desktop-Ausgabe von ChatGPT, andererseits ein neues KI-Modell.

OpenAI Spring Update
OpenAI

ChatGPT Desktop mit neuem UI

ChatGPT bekommt erstmals eine offizielle Desktop-Umsetzung. Damit soll es Usern, die bevorzugt per PC oder Laptop darauf zugreifen, einfacher gemacht werden, das Webtool zu verwenden.

Die Umsetzung der Desktopvariante hat man auch sogleich genutzt, um das User Interface zu überarbeiten. Nutzer auf allen Plattformen sollen es damit leichter haben, den Chatbot zu verwenden.

GPT-4o, das "Omnimodell"

Im Zentrum stand allerdings GPT-4o, das neue "Flaggschiff-Modell" von Open AI. Es soll Künstliche Intelligenz auf dem Level von GPT-4 bieten, bei deren "Umsetzung" aber viel flotter und effizienter sein. Dazu lassen sich seine Fähigkeiten in Computersehen, Spracherkennung und -ausgabe und natürlich im Textbereich miteinander kombinieren. OpenAI spricht von einem "Omnimodell", was auch das "o" im Namen erklärt.

Man wolle damit das Paradigma für die "Zukunft der Zusammenarbeit" verschieben. Diese soll so nicht nur schneller, sondern vor allem natürlicher funktionieren. So kann man etwa Screenshots, Fotos oder Dokumente hochladen und dann mit der KI darüber reden. Ihre Erinnerungsfunktion soll dabei bessere und kohärentere Unterhaltungen ermöglichen. Die KI soll auch Daten und Diagramme zuverlässig analysieren können.

OpenAI

Mehr für Gratisnutzer

Die verbesserte Performance soll vor allem den Gratisnutzern der OpenAI-Dienste zugutekommen. Sie erhalten nun auch Zugriff auf fortgeschrittene Werkzeuge, die bisher nur dem zahlungswilligen Teil der über 100 Millionen Menschen starken Userschaft zur Verfügung standen.

Was man nicht dazusagt, ist, dass das natürlich auch einen Werbeeffekt hat, mit dem sich mehr Nutzer dazu verführen lassen könnten, künftig zu zahlen. Denn wer Geld in die Hand nimmt, darf die verschiedenen Tools des Unternehmens in wesentlich größerem Umfang nutzen. Sie verfügen über ein bis zu fünfmal höheres Ratelimit.

Bei der Bereitstellung der Möglichkeiten von GPT-4o wolle man auch auf die Sicherheit achten, erklärte Murati. Dabei verwies sie auf die Zusammenarbeit von OpenAI mit Stakeholdern aus Wirtschaft, Politik und Zivilgesellschaft, ohne dabei näher ins Detail zu gehen.

ChatGPT hat nun eine Desktopversion, und die Benutzeroberfläche wurde überarbeitet.
OpenAI

Auch wer GPT-4o nicht via ChatGPT oder ein anderes vorgefertigtes Werkzeug verwendet, soll von den Effizienzverbesserungen profitieren. Über die Programmierschnittstelle soll GPT-4o doppelt so schnell und nur halb so teuer sein, wie das bisher mächtigste Modell, GPT-4 Turbo.

Die Verbesserungen sollen sich in allen 50 unterstützten Sprachen niederschlagen. Und man verspricht auch eine natürlichere, mit Emotionen unterlegte Sprachausgabe.

Beeindruckende Live-Demos

Den finalen Teil der Präsentation verbrachte man mit Livepräsentationen, für die sich auch Mark Chen, "Head of Frontiers Research", und Barret Zoph, "Head of Post-Training" bei OpenAI, auf die Bühne gesellten.

Ein von OpenAI gepostetes Demovideo.
OpenAI

Sie ließen sich Tipps zur Bewältigung von Nervosität vor einem Auftritt geben, nur um von der KI dann darauf hingewiesen zu werden, dass hektisches Ein- und Ausatmen nicht im Sinne der vorgeschlagenen Atemübung sei. GPT-4o trug eine Gutenachtgeschichte über Roboter und Liebe mit zunehmend emotionaler Stimme und später in Roboterstimme und auch gesungen vor.

Auch eine handschriftlich auf einem Zettel notierte, überschaubar schwierige lineare Gleichung (3x + 1 = 4) wurde korrekt erkannt und die Lösung Schritt für Schritt erarbeitet. Als komplexere Aufgabe analysierte die KI in Python geschriebene Codes für die Darstellung von Wetterdaten und wusste auch zu sagen, wozu einzelne Funktionen dienen. Das damit generierte Diagramm konnte sie ebenfalls korrekt interpretieren.

Schließlich fungierte GPT-4o auch nach als Liveübersetzer für eine englisch-italienische Konversation, um sich anschließend an der Interpretation eines Gesichtsausdrucks zu versuchen.

Mira Murati, Mark Chen und Barret Zoph (von links).
OpenAI

Das "nächste große Ding" kommt "bald"

Während die KI bei den Live-Versuchen durchaus mit flotten Antworten und in der Tat sehr menschlich wirkender Sprachausgabe glänzte, war die Vorführung nicht ganz frei von "Hoppalas". Mehrfach brach die Sprachausgabe kurz ab, und einmal versagte entweder die Erkennung des Befehls oder ihr Gedächtnis, als sie statt der Kameraaufnahme von Barret Zophs Gesichtsausdruck stattdessen das zuletzt gesicherte Foto analysierte und "eine hölzerne Oberfläche" erkannte.

Insgesamt konnte das Gezeigte durchaus beeindrucken. Murati ließ sich aber einen "Cliffhanger" nicht nehmen und versprach neben dem baldigen Rollout von GPT-4o in den nächsten Wochen auch, dass OpenAI schon "bald" sein "nächstes großes Ding" vorstellen werde. (gpi, 13.5.2024)