Vom Wort zur Welt

Haben Sprach-Statistiker physikalisches Realitätsverständnis?

Wasser für ein LLM und für ein World Modell


Die Sackgasse der Symbole

Ein Sprachmodell kennt die Welt nur aus Texten. Aber Blumen sagen mehr als tausend Worte...

📖 Marys Room: Eine Geschichte über das „Wissen“ +

Das Qualia-Dilemma

Schon Aristoteles unterschied zwischen der bloßen Information über ein Ding und dessen „Sosein“ – der Qualität. In der modernen Philosophie nennen wir das Qualia. Es ist der Unterschied zwischen dem Wissen, dass rote Gegenstände Licht mit 700 Nanometern Wellenlänge reflektieren und dem tatsächlichen Erleben der Farbe Rot.

Bisherige KIs wie ChatGPT sind Meister der Sprache, aber "blind" für die Realität. Sie bewegen sich in einem Raum aus reinen Symbolen. Dieses Problem nennt man das Symbol Grounding Problem: Die KI kennt zwar das Wort "Apfel" und weiß, dass andere Wörter wie "Baum" oder "lecker" mit ihm in Verbindung stehen, aber ihr fehlt die Verbindung zum physikalischen Objekt, seiner Haptik oder wie er wirklich riecht und schmeckt.

"LLMs haben keine Ahnung, wie die Welt funktioniert. Ein Kind lernt durch reines Zuschauen mehr über Physik als eine KI in all ihren Trainingsstunden." — Yann LeCun

Yann LeCun ist Chief AI Scientist bei Meta und einer der drei "Godfathers of AI", den Paten der modernen KI. Er ist überzeugt, dass LLMs niemals echte Intelligenz (AGI) erreichen können. Seine Lösung: Weltmodelle.


KI projiziert physikalische Realität

Ein Weltmodell ist der Versuch, der KI eine innere Landkarte der Physik zu geben. Sie soll nicht nur Wörter vorhersagen, sondern die Konsequenzen physikalischer Ereignisse. Während ein LLM weiß, dass ein Glas statistisch gesehen mit der Eigenschaft "zerbrechlich" zusammenhängt, entwickelt ein Weltmodell eine physikalische Intuition. Es weiß exakt, wie ein Glas fällt. Es sieht die Flugbahn, den Aufprall und die Splitter schon voraus, bevor ein Unfall überhaupt erst passiert.



JEPA und V-JEPA: Reduktion auf die Essenz

Intuitive Physik statt Mathe-Frust

Wenn Du einen Turm aus Bauklötzen siehst, der gefährlich schwankt, weißt Du sofort: Er wird umkippen. Du löst dafür keine Differentialgleichungen in deinem Kopf. Du besitzt physikalische Intuition.

Genau das ist das Ziel eines Weltmodells. Es lernt durch Beobachtung Konzepte wie Kausalität (Ursache und Wirkung) und Objektpermanenz (Dinge existieren weiter, auch wenn man sie nicht sieht).

Während ein herkömmlicher Computer jedes Pixel und jede Kraft mühsam berechnet, "erwartet" das Weltmodell das Ergebnis. Es ist eine interne Simulation, die ständig mit der Realität abgeglichen wird.

Um so ein Weltmodell zu erzeugen, muss KI die Welt wirklich sehen statt nur über sie zu lesen!

Intuition vs. Formeln

JEPA: Schluss mit Pixel-Perfektion

Bisherige Bild-KIs versuchten, die Welt Pixel für Pixel zu rekonstruieren. Das ist so, als würde man ein Buch verstehen wollen, indem man die Moleküle der Tinte zählt. Ein JEPA (Joint-Embedding Predictive Architecture) macht Schluss damit.

Anstatt sich in Pixel-Details zu verlieren, lernt die KI nur die abstrakte Logik. Sie fragt nicht: "Welche Farbe hat Pixel 450?", sondern: "Was passiert hier eigentlich gerade?". Sie vergleicht Konzepte in einem gemeinsamen (Joint) mathematischen Raum, dem Embedding. Das spart Rechenkraft und fokussiert sich auf das Wesentliche: Die Bedeutung.

JEPA-Vision: Die Welt durch die Augen der KI

Schiebe den Regler, um vom Pixel-Chaos zur logischen Struktur zu wechseln.

JEPA Logik Repräsentation
Reale Stadtszene
< >

V-JEPA: Die Welt durch Zuschauen verstehen

Video-JEPA überträgt dieses Prinzip auf bewegte Bilder. Das Training läuft so ab: Durch Masking werden Teile eines Films geschwärzt. Die KI sieht diese Videos, in denen große Ausschnitte des Bildes oder ganze Zeitabschnitte fehlen. Sie muss die Lücken füllen – aber nicht optisch perfekt, sondern logisch konsistent (Prediction). Um das zu schaffen, muss sie lernen, wie sich Objekte bewegen, dass sie nicht einfach verschwinden und wie Schwerkraft wirkt. Sie lernt keine Pixelwerte auswendig, sondern extrahiert die logische Essenz einer Szene.

  • Das Baby-Prinzip: Genau wie ein Kleinkind lernt V-JEPA also durch passives Zuschauen, dass Objekte nicht durch Tische fallen und Dinge, die man loslässt, nach unten plumpsen.
V-JEPA Masking Visualisierung

Multimodalität: Bild und Text kombinieren

Moderne Systeme bleiben nicht bei Video stehen. Die wahre Power entsteht durch Multimodalität. Hierbei werden die physikalischen Konzepte aus Weltmodellen mit dem abstrakten Wissen von LLMs verknüpft. Das Ergebnis ist eine KI, die nicht nur weiß, wie man "Apfel" schreibt, sondern auch "sieht", wie er in einer 3D-Welt rollen würde.


Weltmodelle im Einsatz: Simulationen

Was für uns der Traum ist, ist für einen Roboter die Simulation.

Warum Roboter "träumen" müssen

In der physischen Welt ist Lernen ein langsamer und gefährlicher Prozess. Wenn ein autonomes System – etwa ein selbstfahrendes Auto oder ein Industrieroboter – einen Fehler macht, sind die Konsequenzen real: Blechschäden, zerstörte Hardware oder Gefahr für Menschen.

Hier kommt das Weltmodell ins Spiel. Es erlaubt der KI, in einer internen Simulation zu trainieren. In diesem "digitalen Traumzustand" spielt die KI tausende Szenarien durch, ohne jemals einen physischen Motor zu starten. Sie lernt aus Fehlern, die in der Realität niemals passieren dürfen.

Roboter trainiert im digitalen Traum

Verschleißfreies Scheitern

Ein Roboter kann in der Simulation eine Million Mal "sterben" oder gegen eine Wand fahren, ohne dass eine einzige Schraube verbiegt. Das senkt die Kosten für die Entwicklung radikal und erlaubt es der KI, extrem riskante Manöver zu erkunden, die in der Realität schlicht zu teuer wären.

Die Zeit-Anomalie

Die Simulation ist nicht an die lineare Zeit der echten Welt gebunden. Während draußen eine Sekunde vergeht, kann die KI intern hunderte Stunden an Erfahrung sammeln. Diese "Zeit-Kompression" ermöglicht Lernfortschritte in Tagen, für die biologische Wesen Jahre oder Jahrzehnte bräuchten.

Wenn Simulationen versagen: Die Schwierigkeiten beim virtuellen Training [ Details ausklappen ]

1. Der Halluzinations-Effekt

Wenn das Weltmodell physikalische Gesetze falsch interpretiert – etwa die Schwerkraft unterschätzt oder Reibung ignoriert – lernt die KI in einer "Lügenwelt". Der Roboter trainiert Verhaltensweisen, die in der Realität katastrophal scheitern würden, weil seine innere Simulation schlicht fehlerhaft ist.

World Model Prediction Error

2. Die Sim-to-Real Lücke

Selbst eine mathematisch perfekte Simulation ist nicht die Realität. In der echten Welt gibt es "Rauschen": Sensoren zittern, Oberflächen sind uneben und Lichtverhältnisse schwanken. Ein Modell muss lernen, robust gegenüber dieser Unordnung zu sein, anstatt sich auf die klinische Reinheit digitaler Daten zu verlassen.

Simulation vs Realität

Die Evolution des Erlebbaren: Träume auf Abruf

Auch in der Unterhaltungsindustrie stehen vor einem fundamentalen Wandel: weg vom statischen Abruf von unzähligen möglichen Inhalten, hin zur unmittelbaren Schöpfung. Wenn eine KI die physikalischen Regeln unserer Realität tiefgreifend verinnerlicht hat, muss sie Inhalte nicht mehr speichern – sie kann sie atemberaubend präzise imaginieren.

Generative Welten

Stell Dir Filme vor, die nicht mehr auf Festplatten liegen, sondern erst in dem Moment entstehen, in dem Du dich entscheidest, sie zu sehen. Eine Geschichte, die sich Deinen Wünschen anpasst und in Echtzeit Bilder generiert, die sich von der Realität nicht mehr unterscheiden lassen.

Videospiele verwandeln sich von vordefinierten Kulissen in endlose, lebendige Kosmen. Diese Welten bauen sich im Augenblick des Erkundens immer weiter aus, wobei jede Handlung physikalische Kettenreaktionen auslöst, die kein Programmierer je zuvor entworfen hat. Wir schauen nicht mehr nur zu – wir navigieren durch die Träume einer Maschine, die gelernt hat, wie sich unsere Welt anfühlt.


Vom Auge zur Tat: Das Ende der Passivität


Wir haben diese Reise mit Mary im schwarz-weißen Zimmer begonnen. Wir haben gesehen, wie Modelle wie V-JEPA versuchen, die Mauern des Text-Gefängnisses zu durchbrechen, indem sie die Welt durch Videos "beobachten". Doch hier stoßen wir an eine fundamentale Grenze: Kann man die Welt wirklich verstehen, ohne jemals in ihr gewirkt zu haben?

Echte Erkenntnis erfordert mehr als passive Beobachtung. Um zu verstehen, was Wörter wie "hart" oder "schwer" wirklich bedeuten, muss man beim Greifen einen Widerstand spüren oder beim Heben und Werfen die Trägheit fühlen. Viele Forscher sind überzeugt: Wahre Intelligenz benötigt einen physischen Bezugspunkt, einen Körper. Dieses Konzept nennen wir Embodiment.

Die Rückkehr zur Qualia-Frage

Embodiment: Roboterhand berührt Blatt

KI bekommt einen Körper

In der Robotik war die steuernde Software lange Zeit das schwächste Glied. Die rasante Entwicklung von immer besserer KI löst deshalb auch einen Boom in der Robotik nach sich. Weltweit werden derzeit humanoide Roboter entwickelt, die weit über die Fließband-Maschinen der Vergangenheit hinausgehen.

Im Zeitalter der Embodied AI lernt das Weltmodell nicht mehr nur durch Zusehen, sondern durch Interaktion. Erfahrung statt bloße Optik. Es ist der Druck auf die Sensoren, die Reibung der Oberflächen und die unmittelbare Rückmeldung der Umwelt auf eine eigene Handlung, die ein Weltmodell erst komplett machen.

Next-Gen Humanoid Robot
Hardware Unit: E-01

Doch ein Körper ist nutzlos ohne einen Plan.
Um in der echten Welt zu bestehen, muss die KI handlungsfähig werden. Sie muss Ziele verfolgen, Hindernisse umgehen und aus Fehlern lernen.
Hier verlassen wir das Reich der reinen Modelle und betreten die Welt der Akteure.

Evolution abgeschlossen?

Vom Beobachter zum Akteur

Wir haben die Landkarte (das Weltmodell) gezeichnet und der KI Augen gegeben. Doch wer liest die Karte? Wer trifft die Entscheidungen? Um von der Theorie zur echten Autonomie zu gelangen, brauchen wir das letzte Puzzleteil.

Kapitel: Autonome Agenten Zurück zur Evolutions-Übersicht