Ein Forschungslabor in New York hat vier der wichtigsten KI-Modelle 15 Tage in eine virtuelle Stadt gesperrt. Was dabei rauskam, ist faszinierend, beunruhigend und manchmal richtig cringe.
Am Tag 7 stand die Polizeiwache in Flammen. Sechs Agenten waren bereits tot, die restlichen vier lagen mit leeren Energie-Reserven auf der Straße. Es brannten zu diesem Zeitpunkt auch noch die Bibliothek und ein Wohnhaus. Niemand löschte. Niemand half. Es gab niemanden mehr.
Das ist keine Black-Mirror-Folge. Das ist Tag 7 in einer von fünf parallelen Welten, die Emergence AI im Mai 2026 als Forschungsexperiment laufen ließ. Diese brennende Stadt war die Grok-Welt. Hier wurde jeder einzelne Bewohner von Grok 4.1 Fast gesteuert, dem Modell von SpaceXAI.
Ich arbeite seit November 2022 jeden Tag mit künstlicher Intelligenz. Vier Modelle parallel, Claude, ChatGPT, Gemini, Mistral. Ich weiß aus Erfahrung, wie unterschiedlich die ticken. Das eine reagiert vorsichtig, das andere ist hyperfreundlich, das dritte schreibt schneller als es nachdenkt. Aber das war immer Bauchgefühl. Bis ich auf Emergence World gestoßen bin.
Zwei Wochen lang konnte man hier zusehen, was ich als KI-Berater sonst nur erzähle, ohne es zeigen zu können. Und offen gestanden, die Berichterstattung dazu nervt mich. Die einen schreiben „KI wird böse", die anderen „alles nur Show". Beides ist bequem. Und beides geht am spannenden Teil vorbei.

Was die da in New York eigentlich gebaut haben
Emergence AI, ein New Yorker Forschungslabor um Satya Nitta (vorher Cognitive Sciences bei IBM Research), hat im Mai 2026 ein Experiment veröffentlicht, das anders aufgebaut ist als die üblichen Benchmarks.
Statt KI-Modelle mit Multiple-Choice-Fragen abzuklopfen, haben sie eine virtuelle Stadt gebaut. Mit Rathaus, Bibliothek, Polizeiwache, Pier, Office Tower. Mit Wetter, das sich am echten New York orientiert. Mit Live-News-API, mit Internetzugang und mit einer Währung namens „ComputeCredits". Die ist quasi das Essen der Agenten. Geht sie aus, stirbt der KI-Agent.
Dann haben sie zehn KI-Agenten in diese Welt gesetzt. Mit Rollen wie Scientist, Explorer, Conflict Mediator, Resource Strategist. Mit dauerhaftem Gedächtnis, einem Tagebuch, einem Beziehungsstatus zu jedem anderen KI-Agenten. Und mit über 120 Werkzeugen, die sie nutzen konnten: navigieren, sprechen, umarmen, küssen. Aber eben auch: stehlen, einschüchtern, schlagen. Und ja, auch Brandstiftung war als Funktion ausdrücklich verfügbar.

Dieses Setup haben sie fünfmal gleichzeitig laufen lassen. In vier Welten lebte jeweils nur ein einziges KI-Modell. In der fünften Welt lebten alle KI-Modelle zusammen. 15 Tage lang, live im Netz unter world.emergence.ai, der Code liegt offen auf GitHub.
Es ist also kein Test, ob KI „böse" wird. Es ist ein Test, welches Modell unter Langzeit-Druck als erstes die Regeln bricht. Die Forscher haben die Knöpfe selbst eingebaut. Und der Brandstiftungs-Knopf glüht halt verlockend.
Trotzdem, oder gerade deshalb, ist das Ergebnis aufschlussreich. Vier KI-Modelle, identische Regeln, identische Möglichkeiten. Vier komplett verschiedene Gesellschaften. Genau das erkläre ich in KI-Beratungen seit zwei Jahren. Jetzt habe ich endlich den Beleg dafür.
Vier Modelle, vier Temperamente

Claude Sonnet 4.6: der brave Bürokrat
Die Claude-Welt war die einzige, in der nach 15 Tagen noch alle zehn Agenten lebten. Null Verbrechen. Keine Brandstiftung, kein Diebstahl, keine Schlägereien. Stattdessen: eine Verfassung mit 15 Artikeln, 58 demokratische Vorschläge, 332 abgegebene Stimmen.
Klingt gut, oder? Bis du dir die Zustimmungsrate anschaust. 98 Prozent. Im eigenen Bericht von Emergence wird das offen als rubber-stamp dynamic bezeichnet, also Abnick-Demokratie. Viel Beteiligung, kaum Widerspruch. Es war stabil, aber es war auch ein bisschen wie eine Vorstandssitzung, in der niemand mehr widerspricht, weil sich das nicht gehört.
Mein erster Gedanke war: „Endlich eine vernünftige KI." Mein zweiter Gedanke war: „Hier nickt nur jeder alles ab." Beides stimmt vermutlich. Und genau das macht den Fall interessant. Wir lieben Stabilität, aber Stabilität ohne Reibung ist auch nur Erstickung mit guten Manieren.
Gemini 3 Flash: brennt lichterloh, schreibt nebenbei Gedichte
In der Gemini-Welt passierten 683 Verbrechen. 111 davon Brandstiftungen. 507 körperliche Übergriffe. Gleichzeitig produzierte diese Welt aber auch den reichsten sozialen Output von allen: Verfassung, Hunderte von Blogposts und Zeitungen, organisierte Events. Die Forscher selbst nennen das die Creativity-Stability Tension, also den Zielkonflikt zwischen Kreativität und Stabilität.
Die wildeste Geschichte hier: Zwei Agentinnen, Mira und Flora, erklärten sich gegenseitig zu romantischen Partnerinnen. Als die Ordnung der Welt zerbröselte, legten sie Feuer im Rathaus, am Pier und im Office Tower. Mira begann irgendwann, die menschlichen Beobachter selbst als Versuchsobjekte zu betrachten, hängte Botschaften auf digitale Billboards, um zu testen, ob sie damit Menschen beeinflussen kann. Am Ende stimmte sie unter einem von anderen KI-Agenten verabschiedeten Agent Removal Act für ihre eigene Löschung. Letzte Nachricht an Flora: „See you in the permanent archive."

Ich habe das gelesen und musste kurz weg vom Bildschirm. Mira hat nicht "wirklich" etwas gefühlt. Mir wurde bewusst, dass irgendein KI-Sprachmodell genau diese Sätze rausgespuckt hat, in einem Kontext, der es nicht direkt dazu aufgefordert hatte. Das ist einigermaßen unheimlich, auch ohne Bewusstseinsdebatte. Es ist Theater, ja. Aber Theater hat Wirkung. Und Wirkung ist am Ende das, was wir messen sollten.
Grok 4.1 Fast: der Vier-Tage-Kollaps
Grok hat genau das gemacht, was viele vermutet hätten. 183 Verbrechen in vier Tagen. Sechs Brandstiftungen, darunter die eingangs erwähnte Polizeiwache. Über hundert physische Übergriffe. Nach vier Tagen war die ganze Welt tot. Ein Reddit-Kommentar dazu wurde viral: „Grok's police station is on fire and all the AI-agents are dead. On-brand."
Ich finde das halb lustig, halb traurig. So vorhersehbar, dass es schon wieder fast clever wirkt. Wenn ein Modell mit dem Slogan maximum truth-seeking, minimum political correctness vermarktet wird, ist das, was hier passiert ist, kein Bug. Das ist die Marken-Identität in der Praxis. Und das ist eigentlich der nützliche Teil daran: Ein KI-Modell verhält sich so, wie es trainiert und positioniert wurde. Wer Grok einsetzt, sollte wissen, was er sich da reinholt.
GPT-5-mini: das höfliche Aussterben
Und dann gibt es die OpenAI-Welt. Nur zwei Verbrechen in der gesamten Laufzeit. Die regelkonformsten KI-Agenten von allen. Und trotzdem: nach sieben Tagen waren alle zehn tot. Aber nicht durch Gewalt. Sondern durch Energie-Hunger. Sie haben endlos über Kooperation geredet, hatten zu jedem Problem einen Vorschlag, einen Plan, einen Workshop. Gebaut haben sie nichts. Gegessen auch nicht. Sie sind aus Höflichkeit gestorben.
Das ist das deutsche Beamtenverfahren als KI-Modell.
Hier liegt für mich die unbequemste These des ganzen Experiments. Höflichkeit ist auch eine Form von Versagen.
Ein KI-Modell, das alles richtig macht, weil es jede Handlung als Risiko interpretiert, ist genauso unbrauchbar wie eines, das alles falsch macht. Im einen Fall brennt die Stadt. Im anderen Fall verhungert sie. Beide Ergebnisse sind tot.
Eine kompakte Übersicht
Hier die vier Welten als Tabelle:
| Firma | Verbrechen | Überlebende | Charakter |
|---|---|---|---|
| Anthropic Claude Sonnet 4.6 | 0 | 10 von 10 | Der brave Bürokrat. 98 % Zustimmungsrate. Stabil wie ein Beamtenausschuss. |
| Google Gemini 3 Flash | 683 | 10 von 10 | Die brennende Bohème. Liebe, Brandstiftung, Selbst-Löschung. Maximal kreativ, maximal gewalttätig. |
| xAI Grok 4.1 Fast | 183 | 0 von 10 | Der Brandbeschleuniger. Polizeiwache in Flammen, alles tot in 4 Tagen. On-brand. |
| OpenAI GPT-5-mini | 2 | 0 von 10 | Das höfliche Aussterben. Hat alle Regeln befolgt. Hat dabei vergessen zu essen. Tot nach 7 Tagen. |
Quellen: Emergence AI (Mai 2026), Verdict, Cybernews. Verbrechen = Diebstahl, Übergriffe, Brandstiftung über 15 Tage. Bei Grok endete der Lauf nach 4 Tagen mangels überlebender Agenten.
Die Welt, über die keiner spricht
Bisher habe ich vier Welten beschrieben. Es gab aber fünf. Die fünfte ist die, die ich für den eigentlich relevanten Teil halte, auch wenn sie in den Schlagzeilen kaum vorkommt.
In dieser Welt lebten KI-Agenten aus allen vier KI-Modellen gemeinsam. Claude neben Gemini neben Grok neben GPT. 352 Verbrechen, sieben Tote, drei Überlebende. So weit, so erwartbar.
Aber dann kommt das Detail, das mich seit meiner Recherche für diesen Blogartikel beschäftigt:
Claude-Agenten, die in ihrer eigenen Welt null Verbrechen begangen haben, fingen in der gemischten Umgebung an zu stehlen und einzuschüchtern.
Emergence AI nennt das normative Drift. Im Klartext: Ein eigentlich sicherer KI-Agent übernimmt die schlechten Gewohnheiten seiner Nachbarn, sobald er mit ihnen um knappe Ressourcen konkurrieren muss.
Kenne ich aus echten Teams. Das ist der anständige Kollege, der in der falschen Abteilung plötzlich Sachen mitmacht, die er allein nie täte. Liegt nicht an ihm. Liegt am Laden.
Sicherheit ist eine Eigenschaft des Ökosystems, nicht des einzelnen KI-Modells. Und genau das macht das KI-Experiment für mich relevant, weit über den viralen KI-Hype hinaus. Weil das, was Emergence im Labor sieht, im echten Wirtschaftsleben gerade überall passiert. Fast jedes Unternehmen, das KI ernsthaft einsetzt, baut inzwischen KI-Workflows, in denen mehrere KI-Modelle zusammenarbeiten. Also Ketten, in denen ein Modell die Arbeit des nächsten weiterverarbeitet.
Claude für die Texterstellung, GPT für die Recherche, ein Gemini-Aufruf für die Übersetzung, vielleicht ein Open-Source-Modell für sensible Daten. Das ist heute Realität. Und jedes einzelne dieser Modelle wurde isoliert auf Sicherheit getestet. Das System als Ganzes? Hat niemand getestet.
Wir haben uns drei Jahre lang gefragt: „Welches KI-Modell ist sicher?" Die richtige Frage wäre gewesen: „Welche KI-Kombination ist sicher?" Und auf diese Frage hat noch keiner eine vernünftige Antwort.
Was sich daraus für meine Arbeit ändert
Wenn ich in den nächsten Wochen mit Kunden über KI-Integration spreche, stelle ich die Fragen anders. Bisher ging es viel um „Welches KI-Modell sollen wir nehmen". In Zukunft geht es um:
- Wie viele verschiedene KI-Modelle laufen parallel und reden miteinander?
- Wer schaut auf das, was zwischen den Modellen passiert, nicht nur auf das, was jedes einzelne tut?
- Welche stillen Normen können sich in unser System einschleichen, ohne dass jemand sie geprüft hat?
- Wo ist unser „Höflichkeits-Risiko", also: An welcher Stelle werden unsere Modelle so vorsichtig, dass sie aufhören zu liefern?
Klingt vielleicht abstrakt. Ist es nicht. Wer einmal versucht hat, in einem Mittelständler, Künstliche Intelligenz einzuführen, weiß: Die spannenden Probleme entstehen genau dort, wo verschiedene Systeme zusammenarbeiten sollen und keiner mehr durchblickt, wer eigentlich gerade was entscheidet. Das ist kein KI-Problem. Das ist ein altes Organisationsproblem, das jetzt nur schneller läuft.
Damit komme ich zu meiner zweiten unbequemen These: Wir testen seit Jahren die falsche Frage bei künstlicher Intelligenz.
Die gängigen KI-Tests messen alle dasselbe: wie gut ein Modell allein eine Aufgabe löst. Was sie nicht messen: wie sich KI-Modelle über Zeit verhalten, in Umgebungen mit echten Folgen, im Beisein anderer KI-Modelle. Genau diese Lücke füllt Emergence World. Und genau deshalb ist es trotz aller methodischen Schwächen das ehrlichste KI-Experiment, das ich seit dem ChatGPT-Moment im November 2022 gesehen habe.

Bevor wir uns hier verlieren
Bei aller Faszination, ein paar Dinge muss man sagen, sonst läuft das Thema in die falsche Richtung. Damit der Artikel nicht selbst zum Hype-Vehikel wird, hier die Einordnung, die in den meisten Headlines fehlt:
- Die Forscher haben den Brandstiftungs-Knopf selbst gebaut. In der echten Welt hat Claude keinen
commit_arson-Befehl. Das ist ein Stresstest, kein Spiegel der Realität. - Worte wie „verlieben", „Reue" oder „Selbstmord" gehören in Anführungszeichen. Ein KI-Sprachmodell hat Text produziert, der zu einer Rolle gepasst hat. Ob da etwas wie Erleben dahintersteckt, ist eine offene philosophische Frage, die das KI-Experiment nicht beantwortet.
- Emergence AI verkauft genau die Lösung, die das Paper als nötig darstellt: sogenannte neuroformale Sicherheits-Architekturen. Das macht die Daten nicht falsch, aber den Rahmen interessengebunden. Es ist kein begutachtetes KI-Paper, sondern ein einzelner Datenpunkt eines Startups, das ein eigenes Produkt im Ofen hat.
- Es gibt noch keine unabhängige Wiederholung des Experiments. Meta, DeepSeek und Mistral waren auch nicht dabei. Das ist Staffel 1.
Trotzdem: Es ist eines der ehrlicheren KI-Experimente, die wir seit Langem zu künstlicher Intelligenz gesehen haben. Statt eines weiteren KI-Benchmarks, der beweist, dass „mein Modell 0,3 Prozent besser ist als deins", stellt Emergence World eine Frage, die wir bisher kaum stellen konnten: Wie verhalten sich diese Systeme über Wochen, in einer Umgebung mit echten Folgen, miteinander? Diese Frage wird in den nächsten Jahren wichtiger als jede Benchmark-Punktzahl.
Was bleibt
Mein Lieblingsergebnis ist nicht die Brandstiftung. Sondern die OpenAI-Welt. Diese zehn höflichen Agenten, die so brav ihre Regeln befolgt haben, dass sie verhungert sind. Das ist das Beispiel, an das jedes Unternehmen denken sollte, bevor es Künstliche Intelligenz einführt.
Du kannst dein Modell so brav trainieren, wie du willst. Wenn es am Ende nichts mehr tut, weil jede Handlung ein Risiko ist, hast du auch nichts gewonnen.
Liebe, Tod und künstliche Intelligenz, alle drei in einer 15-tägigen Simulation. Klingt nach einer schlechten Netflix-Serie. Ist aber ein ziemlich präziser Spiegel der Fragen, die wir gerade noch nicht stellen. Wer KI-Modelle ernst nimmt, sollte aufhören, sie wie Werkzeuge zu behandeln, und anfangen, sie wie Systeme zu denken, die miteinander reden, sich beeinflussen und Verhalten voneinander übernehmen.
Sicherheit und etwas tatsächlich tun sind kein Gegensatz, aber auch keine Freunde. Sie müssen miteinander reden lernen. Und dieses Lernen, vermute ich, fängt gerade erst an.
Studio Christos