Start / Ratgeber

Wie KI-Detektoren funktionieren: Perplexity und Burstiness erklärt

KI-Detektoren spucken Prozentwerte aus, aber was messen sie eigentlich? Die zwei Kernkonzepte heißen Perplexity und Burstiness. Wer sie versteht, weiß auch, warum Detektoren so oft danebenliegen.

Das Grundprinzip: Wahrscheinlichkeit messen

Ein Sprachmodell erzeugt Text, indem es Wort für Wort das jeweils wahrscheinlichste nächste Wort wählt. Ein KI-Detektor dreht dieses Prinzip um: Er nimmt einen fertigen Text und fragt, wie wahrscheinlich ein Sprachmodell jedes einzelne Wort an seiner Stelle gefunden hätte. Ist der Text über weite Strecken genau so, wie ein Modell ihn vorhergesagt hätte, gilt er als verdächtig maschinell. Weicht er oft ab, gilt er als menschlich. Mehr ist es im Kern nicht: Detektoren messen Vorhersagbarkeit, nicht Herkunft.

Perplexity: das Maß der Überraschung

Perplexity ist die technische Größe für diese Vorhersagbarkeit. Niedrige Perplexity heißt: Das Modell war von dem Text kaum überrascht, jedes Wort lag nahe. Hohe Perplexity heißt: Der Text hat das Modell immer wieder überrascht, mit ungewöhnlicher Wortwahl, eigenwilligen Bildern, unerwarteten Wendungen. KI-Texte haben systematisch niedrige Perplexity, weil sie ja gerade aus den wahrscheinlichsten Wörtern bestehen. Menschliche Texte streuen breiter: Wir schreiben Dinge, die kein Modell vorhergesagt hätte, manchmal brillant, manchmal schief, aber eben unwahrscheinlich.

Hier liegt auch die erste große Fehlerquelle: Menschen, die bewusst einfach und klar schreiben, Behördentexte, Anleitungen, Schulaufsätze, Texte von Nicht-Muttersprachlern, produzieren ebenfalls niedrige Perplexity. Eine Stanford-Studie zeigte, dass gängige Detektoren Essays von Nicht-Muttersprachlern massenhaft fälschlich als KI markierten. Klarheit sieht für einen Detektor aus wie Maschine.

Burstiness: das Maß des Rhythmus

Das zweite Konzept betrachtet die Schwankung. Menschen schreiben in Schüben: ein kurzer Satz, dann ein langer, verschachtelter, dann wieder zwei knappe. Diese Varianz in Satzlänge und -struktur heißt Burstiness. KI-Modelle produzieren gleichmäßigere Muster, ihre Sätze pendeln in einem engen Längenkorridor. Detektoren wie GPTZero haben Burstiness als zweite Messgröße populär gemacht: niedrige Burstiness plus niedrige Perplexity ergibt einen hohen KI-Score.

Auch hier gilt die Umkehrung nicht zuverlässig: Erfahrene Sachbuchautoren schreiben oft bewusst gleichmäßig, und überarbeitete KI-Texte haben menschliche Varianz. Die Messgrößen korrelieren mit Herkunft, sie beweisen sie nicht.

Warum die Werte zwischen Tools so stark schwanken

Jeder Detektor nutzt ein anderes Referenzmodell, andere Schwellenwerte und anderes Trainingsmaterial. Derselbe Text bekommt deshalb bei Tool A 12 Prozent KI-Wahrscheinlichkeit und bei Tool B 87. Beide Zahlen sehen präzise aus, beide sind Schätzungen unter verschiedenen Annahmen. Dazu kommt das Sprachproblem: Die meisten Detektoren sind primär auf Englisch trainiert und auf Deutsch messbar schwächer. Selbst OpenAI hat seinen eigenen Detektor 2023 wegen geringer Genauigkeit abgeschaltet, und auch aktuelle akademische Übersichtsarbeiten kommen zu ernüchternden Ergebnissen bei der Verlässlichkeit.

Was das praktisch bedeutet

Drei Konsequenzen. Erstens: Behandle jeden Detektor-Score als Hinweis, nie als Beweis, egal in welche Richtung. Institutionen, die Prüfungsentscheidungen allein auf Scores stützen, bewegen sich auf dünnem Eis, und viele Hochschulen haben das erkannt. Zweitens: Wenn du Texte auf KI prüfen willst, kombiniere Werkzeuge mit Sprachgefühl; die menschlich erkennbaren Signale haben wir in KI-Texte erkennen beschrieben. Drittens: Wenn du selbst mit KI schreibst und natürliche Texte willst, arbeite an genau den zwei Größen, die Detektoren messen: mehr Überraschung in der Wortwahl, mehr Schwankung im Rhythmus. Das geht von Hand oder mit einem Humanizer, und es macht Texte nicht nur statistisch unauffälliger, sondern schlicht lesbarer. Dass gute Texte und „menschlich gemessene" Texte am Ende dasselbe sind, ist die vielleicht beruhigendste Erkenntnis in dieser ganzen Debatte.

Probier es direkt aus

Der KI Humanizer auf der Startseite wendet alle Techniken aus diesem Artikel automatisch an. Kostenlos, ohne Konto, dein Text wird nicht gespeichert.

Text humanisieren

Häufige Fragen

Was ist Perplexity bei KI-Detektoren?

Perplexity misst, wie vorhersehbar ein Text für ein Sprachmodell ist. KI-Texte sind statistisch vorhersehbarer als menschliche, also haben sie eine niedrigere Perplexity.

Was bedeutet Burstiness?

Burstiness beschreibt die Schwankung der Satzlängen und Satzstrukturen. Menschen schreiben mal kurz, mal verschachtelt. KI-Modelle produzieren gleichmäßigere Muster.

Warum irren sich KI-Detektoren so oft?

Weil sie Wahrscheinlichkeiten messen, keine Herkunft. Einfacher, sauberer menschlicher Text sieht statistisch aus wie KI, und überarbeiteter KI-Text wie Mensch.

Welcher KI-Detektor ist für Deutsch am genauesten?

Die meisten Detektoren sind auf Englisch trainiert und auf Deutsch deutlich schwächer. Deutsche Ergebnisse solltest du grundsätzlich skeptischer lesen.

Kann ein Text 0 Prozent KI-Wahrscheinlichkeit erreichen?

Scores sind Momentaufnahmen einzelner Tools, keine objektive Wahrheit. Derselbe Text bekommt in zwei Detektoren oft völlig verschiedene Werte.