
HEUTE GEHT’S UM EINE REVOLUTION IN DER WELT DER VIDEOSPIELE,
DANK KÜNSTLICHER INTELLIGENZ
Stellt euch vor, ihr könnt ein komplettes 3D Open-World-Videospiel aus nur einem einzigen Bild oder Satz generieren. Klingt unmöglich? Das ist genau das, was Google DeepMind mit Genie 2 möglich gemacht hat – eine wahre Revolution in der Welt der Videospiele!
Wir schauen uns das FOUNDATION WORLD MODEL von Google’s Deepmind an.
Genie 2 ist eine bahnbrechende Technologie, die es uns ermöglicht, interaktive 3D-Welten aus dem Nichts zu erschaffen – und das in Echtzeit! Es handelt sich nicht um eine klassische Game Engine, sondern um ein Diffusionsmodell, das Bilder generiert, während wir die Perspektive wechseln.
👉 Mehr erfahren zu Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Viele kennen vielleicht noch das ‚AI Doom‘-Projekt.
Das „AI Doom“-Projekt ist ein Experiment, bei dem eine künstliche Intelligenz in Echtzeit ein Doom-ähnliches Spiel erstellt. Anstatt dass alle Grafiken und Spielmechaniken vorher programmiert werden, erzeugt ein neuronales Netzwerk (genauer: ein Diffusionsmodell, unterstützt durch Reinforcement Learning) jeden einzelnen Bildausschnitt dynamisch. Das System musste aber vorher mühsam mit Doom gefüttert werden, um ein etwa vergleichbares Spielerlebnis zu erschaffen.
Genie 2 geht aber viel weiter. Es ist ein echtes ‚World Model‘ mit einem viel größeren Verständnis der Welt. Es kann Konzepte wie Springen, Laufen, Schwimmen oder das Rammen einer Wand bei hoher Geschwindigkeit verstehen und umsetzen.
Der große Durchbruch ist die Fähigkeit zur Generalisierung. Genie 2 kann Ideen über eine Umgebung ableiten und verstehen.
Im Gegensatz zu Genie 1, das noch sehr einfache Umgebungen mit verwaschenen Charakteren und einer Gameplay-Dauer von nur 2 Sekunden bot, ist Genie 2 ein riesiger Fortschritt.
Umgebungen in Genie 2 können mit Tastatur und Maus von Menschen und KI-Agenten gesteuert werden.
WIE FUNKTIONIERT GENIE 2?
Stellt euch vor, ihr gebt Genie 2 ein einfaches Bild oder eine Beschreibung und es erschafft daraus eine komplette Welt, die sich ständig weiterentwickelt. Dabei merkt sich das Modell auch Dinge, die außerhalb eures Sichtfeldes liegen – wichtig für eine konsistente und immersive Erfahrung.
Genie 2 reagiert auf Aktionen und weiß, dass Pfeiltasten einen Charakter bewegen und nicht die Umgebung.
Das System kann verschiedene Perspektiven erzeugen, einschließlich First-Person-, isometrischer und Third-Person-Ansichten.
ANWENDUNGSBEREICHE UND MÖGLICHKEITEN
Genie 2 ermöglicht schnelles Prototyping interaktiver Erfahrungen. Forscher können so KI-Agenten in neuen Umgebungen trainieren und testen.
Konzeptzeichnungen lassen sich in interaktive Umgebungen verwandeln.
KI-Agenten, wie der SIMA-Agent, können in den von Genie 2 generierten Welten Aufgaben erfüllen und Anweisungen befolgen.
Auch reale Bilder können als Grundlage dienen, um beispielsweise Gras im Wind zu simulieren.
BEISPIELE UND FÄHIGKEITEN IM DETAIL
Genie 2 beherrscht:
- Objektinteraktionen, wie zerplatzende Ballons.
- Charakteranimationen.
- NPCs (Non-Player Characters).
- Physikalische Effekte wie Wasser, Rauch und Schwerkraft.
LIMITATIONEN
Natürlich hat Genie 2 auch noch seine Macken – etwa, wenn sich plötzlich ein Geist durch euren Garten schleicht oder ein Snowboarder sich für ein unerwartetes Parkour-Abenteuer entscheidet. Aber hey, das gehört zum Experimentieren dazu!
Aktuell kann Genie 2 eine konsistente Welt nur für etwa eine Minute generieren. Danach kommt es zu den typischen KI-Video-Halluzinationen.
FAZIT
Genie 2 ist ein Meilenstein und zeigt das Potential von World Models. Es ebnet den Weg für fortschrittlichere KI-Systeme.
Auch wenn es sich noch um ein Forschungsprojekt handelt, gibt es bereits ähnliche Projekte, wie z.B. von Tencent oder World Labs.
Die Kombination von Genie 2 mit einem KI-Agenten wie SIMA und einem LLM wie Gemini eröffnet unglaubliche Möglichkeiten.
Echtzeit-Interaktion und autonome Agenten:
Durch die Integration mit einem KI-Agenten wie SIMA wird es möglich, dass Agenten innerhalb der von Genie 2 generierten Welten eigenständig Aufgaben ausführen – etwa das Navigieren, Interagieren mit Objekten oder das Ausführen von Befehlen wie „Öffne die blaue Tür“. Dies führt zu einer neuen Art von agentenbasierten Simulationen, bei denen KI nicht nur in statischen, vorprogrammierten Szenarien agiert, sondern in dynamisch veränderlichen Umgebungen.
Unendlich vielfältige Trainingsumgebungen:
Genie 2 kann aus einem einzigen Bildprompt eine nahezu unbegrenzte Vielfalt an spielbaren 3D-Welten generieren. Diese Umgebungen können als simulierte Trainingsfelder für KI-Agenten dienen, wodurch diese in immer neuen, herausfordernden Szenarien trainiert werden können – ein entscheidender Schritt, um deren Robustheit und Generalisierungsfähigkeit zu verbessern.
Natürliche Sprachsteuerung und komplexe Planung:
Ein leistungsfähiges LLM wie Gemini ermöglicht es, diese interaktiven Welten per natürlicher Sprache zu steuern. Nutzer können komplexe Befehle oder Anfragen formulieren, die dann von Gemini interpretiert werden – von einfachen Anweisungen bis hin zu mehrstufigen, planungsbasierten Aufgaben. Dies eröffnet die Möglichkeit, interaktive Erlebnisse oder Spiele zu entwickeln, die sich flexibel an die Eingaben und Vorlieben der Nutzer anpassen.
Revolution im Game-Design und der Prototypenerstellung:
Die gesamte Pipeline – von der spontanen Erzeugung einer 3D-Welt (Genie 2) über die autonome Steuerung durch einen Agenten (SIMA) bis hin zur natürlichen Interaktion via Gemini – erlaubt es, Spiele oder interaktive Erlebnisse nahezu „on the fly“ zu entwickeln. Entwickler können damit sehr schnell Prototypen erstellen und experimentelle Konzepte testen, ohne auf traditionelle, zeitintensive Modellierung und Programmierung angewiesen zu sein.
Und wenn man das weiter spinnt, wird es auch für Videoproduktionen interessant. Aus einem einzigen Frame lasse ich eine Welt entstehen und setze dann meine Charaktere in diese Welt. Gebe ihnen Vorgeschichten, politische Einstellungen und sexuelle Vorlieben. Und lasse sie dann miteinander interagieren. Schaue zu und setze meine Kameras, wo ich möchte. Oder ich programmiere gleich eine VR-Welt und der Zuschauer steht mittendrin im Film. Ich hab schon mal ein Video über den Schnittplatz der Zukunft gemacht – könnt ihr euch hier mal gerne anschauen.
Welche Welt würdet ihr gerne entstehen lassen, welche Open-World gerne mal spielen?
Schreibt es unten in die Kommentare.