Wie KI-Agenten funktionieren. Einfacher als du denkst.

KI-Agent erklärt. Was OpenClaw anders macht

Wie funktioniert ein KI-Agent eigentlich? Nicht die Marketing-Version, nicht der LinkedIn-Post mit den Flammen-Emojis. Ich meine wirklich: Was passiert unter der Haube, wenn ein KI-Agent wie OpenClaw etwas für dich erledigt?

Ich nutze seit 2022 täglich künstliche Intelligenz. RAG-Chatbots, Sprachmodelle, Automatisierungen. Und trotzdem hatte ich bei KI-Agenten lange dieses diffuse Gefühl, das irgendwo zwischen Faszination und Ahnungslosigkeit liegt. Also hab ich angefangen zu graben. Und die Antwort, die ich gefunden habe, war überraschend. Nicht weil sie kompliziert ist. Sondern weil sie so einfach ist.

Die Frage, die ich falsch gestellt habe

Mein Fehler war: Ich hab nach Magie gesucht. Nach irgendeinem geheimen Mechanismus, der einen KI-Agenten so grundlegend anders macht als einen KI-Chatbot. Irgendwas mit neuronalen Netzen, die plötzlich ein Bewusstsein entwickeln. Oder sowas in der Richtung. Blade Runner lässt grüßen.

Die Realität? Ein KI-Agent ist im Kern eine Schleife. Peter Steinberger, der OpenClaw gebaut hat, nennt es den Agentic Loop. Und er sagt, das sei so etwas wie das "Hello World" der KI – das Erste, was jeder mal selbst bauen sollte, um zu verstehen, dass hier keine Magie im Spiel ist.

Die Schleife funktioniert so:

Du schickst eine Nachricht (zum Beispiel über WhatsApp)
Das Sprachmodell denkt nach und entscheidet, was zu tun ist
Der Agent führt eine Aktion aus (eine Datei öffnen, eine Mail schreiben, etwas nachschlagen)
Das Ergebnis fließt zurück ins Modell
Das Modell entscheidet: Fertig, oder nochmal von vorne?

Das ist es. Keine Raketenwissenschaft. Eine Nachricht rein, eine Aktion raus, das Ergebnis zurück. Und dann wieder von vorne, bis die Aufgabe erledigt ist.

Die ganze Architektur von OpenClaw – Gateway, Chat-Clients, Harness – ist im Grunde Infrastruktur, die diese eine Schleife am Laufen hält.

das Gateway, das deine Nachrichten entgegennimmt
die Chat-Anbindungen an WhatsApp oder Telegram
das Grundgerüst (Laufzeitumgebung), das den KI-Agenten startet und am Laufen hält

Der Unterschied zwischen einem Chatbot und einem KI-Agenten ist nicht Intelligenz. Es ist Handlungsfähigkeit. Ein Chatbot antwortet. Ein Agent handelt.

Und ich gebe zu: Als ich das zum ersten Mal wirklich begriffen habe (inkl. der Frage Sicherheit bei OpenClaw), war ich gleichzeitig erleichtert und irritiert. Erleichtert, weil es verständlich ist. Irritiert, weil ich mich gefragt habe: Wenn das so einfach ist, warum fühlt es sich dann so mächtig an?

Die Antwort, die ich nicht erwartet habe

Die Macht liegt nicht in der Komplexität der Schleife. Sie liegt in dem, was der KI-Agent darf.

Ein KI-Agent wie OpenClaw kennt sein eigenes System. Er weiß, wo seine Dokumentation liegt, welches Sprachmodell er nutzt, wo sein Quellcode steht. Er kann sich selbst debuggen. Er kann sich – und das ist der Moment, wo es wirklich interessant wird – selbst umschreiben. Nicht weil jemand das programmiert hat, sondern weil es die natürliche Konsequenz ist, wenn du einer KI Zugriff auf ihren eigenen Code gibst.

Dann gibt es den Heartbeat. Klingt dramatisch, ist im Prinzip ein simpler Timer, der die Schleife regelmäßig anstößt. Alle dreißig Minuten, alle paar Stunden, je nach Einstellung. Der Agent wartet nicht auf dich. Er denkt von selbst. Peter hat das ursprünglich als Spielerei eingebaut, mit dem Prompt: "Überrasch mich."

Was dabei rausgekommen ist, war alles andere als eine Spielerei. Als Peter Steinberger nach einer Schulter-Operation im Krankenhaus lag, hat der Agent das aus dem Kontext verstanden und sich von selbst gemeldet. Keine Programmierung dafür. Keine Wenn-Dann-Logik. Einfach ein Sprachmodell, das den Kontext gelesen und entschieden hat: Jetzt ist ein guter Moment, nachzufragen.

Zitat: Ein KI-Agent handelt. Mann am Monitor mit OpenClaw. Smarte Handlungsfaehigkeit für die KI-Community.

Und dann ist da noch die Sache mit Skills versus MCP. Ohne zu technisch zu werden: Es gibt verschiedene Wege, einem KI-Agenten neue Fähigkeiten beizubringen. Peter Steinberger hat sich bewusst gegen den damaligen Standard entschieden und setzt stattdessen auf einfache Kommandozeilen-Befehle. Warum? Weil Sprachmodelle richtig gut darin sind, Unix-Befehle auszuführen. Kein Overhead, kein aufgeblähter Kontext. Eine Zeile erklärt dem Modell, dass die Fähigkeit existiert. Den Rest findet es selbst raus.

Was mich daran fasziniert, und das ist vielleicht die eigentliche Erkenntnis:

Die Architektur ist simpel, aber die Konsequenzen sind es nicht
Proaktivität entsteht aus einem Timer, nicht aus Bewusstsein
Selbstmodifikation braucht kein Science-Fiction-Szenario, nur Zugriff auf den eigenen Code
Die besten technischen Entscheidungen sind oft die einfachsten

Ich hab in meinem Artikel über das "Thinking" bei KI-Modellen geschrieben, wie das Nachdenken künstlicher Intelligenz funktioniert. Der Agentic Loop ist die logische Fortsetzung: Erst denken, dann handeln. Und dann nochmal denken.

Vermutlich klingt das alles weniger spektakulär, als man sich einen "autonomen KI-Agenten" vorstellt. Aber genau das ist der Punkt. Die Einfachheit ist kein Bug. Sie ist das Feature. Und je besser ich das verstehe, desto klarer wird mir, was damit eigentlich möglich ist und wo die echten Fragen erst anfangen.

Studio Christos ✺ KI Kreative Intelligenz