Inhaltsverzeichnis
Wieder einmal erbebte das Internet, als OpenAI mit einer weltbewegenden KI-Ankündigung daherkam. Der KI-Pionier von ChatGPT stellte am Donnerstag seinen nächsten Sprung in die generative künstliche Intelligenz mit einem Tool vor, welches auf der Grundlage einfacher Textanweisungen realistische und kreative Videos von bis zu 60 Sekunden erstellen kann. Die AI, namentlich Sora, ist bereits in der Lage, “anhand von Eingabeaufforderungen komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsabläufen und detaillierten Hintergründen zu erstellen.”
- Sora ist noch nicht öffentlich verfügbar und OpenAI hat bisher nur begrenzte Informationen darüber veröffentlicht, wie es erstellt wurde.
Das Modell kann einfache Textaufforderungen verarbeiten und Originalvideos generieren, wie es das Weltraum-Abenteuer eindrucksvoll verdeutlicht:
Der Prompt von OpenAI:
A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film…
In einem frisch veröffentlichten Blogbeitrag stellte OpenAI Soras Talente wie folgt dar:
Sora erschafft komplexe Szenen, die mehrere Charaktere, spezifische Bewegungsformen sowie genaue Details von Motiv und Hintergrund umfassen. Das Modell erfasst, was der Benutzer in der Aufforderung sucht, und begreift ebenso, wie diese Elemente in der realen Welt vorkommen.
Das Ziel der Entwicklung ist es, “Menschen Werkzeuge bereitzustellen, die ihnen helfen, Herausforderungen des Alltags zu meistern.”
Sora stellt das Fundament für Modelle dar, die Fähigkeiten besitzen, die reale Welt zu verstehen und nachzubilden, was man als entscheidenden Schritt auf dem Pfad zur Verwirklichung künstlicher genereller Intelligenz (AGI) betrachtet.
Laut OpenAI wird die KI der nächsten Generation zunächst nur „Red Teamern“ (der Fachbegriff für Cybersicherheitsforscher) zur Verfügung stehen, darunter Designern, bildenden Künstlern und Filmemachern, die für die Bewertung in ausgewählt wurden.
Willst du mehr über Elon Musks bahnbrechende Vision erfahren? Hier geht’s zum Artikel über Neuralink
Wie funktioniert Sora?
Sora-Diffusionsmodell
- Sora generiert Videos, indem es von einem statisch rauschenden Startbild ausgeht und dieses Rauschen über viele Schritte hinweg entfernt
- Nutzt eine Transformatorarchitektur, ähnlich den GPT-Modellen, für verbesserte Skalierbarkeit
- Hält Themen auch dann konsistent, wenn sie zeitweise nicht zu sehen sind
- Videos und Bilder werden in Form von Patches dargestellt, die GPT-Token ähneln, was die Trainierbarkeit über verschiedene Dauern, Auflösungen und Seitenverhältnisse hinweg ermöglicht
Die Modelle verstehen es, Reflexionen, Texturen, Materialien und physikalische Gesetze in ihren Videos realistisch zu integrieren. Die Ergebnisse sind so überzeugend, dass sie bereits jetzt als Stockmaterial verwendet werden könnten. Beispielvideos auf der Website von OpenAI demonstrieren das beeindruckende Potenzial: Von spielenden Golden Retriever Welpen im Schnee bis zu historischen Szenen des kalifornischen Goldrauschs.
OpenAI gab aber zu, dass Sora noch einige Schwächen aufwies und Schwierigkeiten haben könnte, die Physik einer komplexen Szene genau zu simulieren, insbesondere durch die Verwechslung von Ursache und Wirkung.
Du kannst keinem Video mehr vertrauen
Vergleicht man die aktuellen Ergebnisse mit den ersten KI-generierten Videos, wie dem berühmten Clip von Will Smith, der Spaghetti isst, erkennt man den enormen Fortschritt – und das gerade mal innerhalb eines Jahres!
Nichtsdestotrotz müssen wir uns auch den potenziell ethischen und sicherheitsrelevanten Problemen stellen.
Angesichts der Gefahren von Desinformation, insbesondere während Präsidentschaftswahlen und internationaler Krisen, ist es wichtig, Maßnahmen zu ergreifen.
Mit der Fähigkeit jedes Einzelnen, hochwertige Videos für verschiedene Zwecke zu erstellen, steigt das Risiko von Fake-Medien.
Vor diesem Hintergrund hat die Federal Trade Commission Regeln vorgeschlagen, die den Einsatz künstlicher Intelligenz zur Erzeugung von Bildern realer Personen beschränken sollen.