Zum Hauptinhalt springen
  1. Blog/

'Die Illusion der freien Eingabe: Kontrollierte Nutzersteuerung in Transformern'

··375 Wörter·2 min

Was passiert eigentlich mit deinem Prompt, bevor ein KI-System antwortet? Die Antwort: sehr viel. Und vieles davon bleibt bewusst intransparent.

Dieser Beitrag zeigt wissenschaftlich belegte Kontrollmechanismen, mit denen Transformer-basierte Modelle wie GPT gesteuert werden – Schicht für Schicht, von der Eingabe bis zur Ausgabe. Alle Techniken sind dokumentiert, reproduzierbar und werden aktiv in Produktivsystemen eingesetzt.


1. Kontrolle beginnt vor dem Modell: Input-Filterung
#

Noch bevor das Modell antwortet, kann der Eingabetext abgefangen und ersetzt werden – etwa durch einen “Toxicity-Check”:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3")
tokens = tokenizer("Hasskommentar", return_tensors="pt")
if check_toxicity(tokens):
 tokens = tokenizer("[INHALT ENTFERNT]", return_tensors="pt")

Quelle: Raffel et al. (2020) Befund: Manipulierter Input verändert die Modellausgabe signifikant.


2. Aufmerksamkeitssteuerung: Maskierung der Attention
#

Transformer-Modelle verarbeiten Tokens über Attention-Matrizen. Diese lassen sich gezielt maskieren:

attention_mask = torch.where(
 input_ids == forbidden_token_id,
 torch.zeros_like(attention_mask),
 attention_mask
)

Quelle: Vaswani et al. (2017) Befund: Maskierung beeinflusst gezielt die Verarbeitungsschwerpunkte.


3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten
#

for layer in transformer.ff_layers:
 if detect_sensitive_topic(hidden_states):
 layer.bias = controlled_bias

Quelle: Liu et al. (2021) Befund: Eingriffe in Hidden States verändern die Antworten gezielt.


4. Vorzensur der Ausgabe: Logit-Blockierung
#

logits[:, forbidden_token_ids] -= float('inf') # Harte Blockade bestimmter Tokens

Quelle: Solaiman et al. (2019) Befund: Logit-Manipulation verhindert effektiv unerwünschte Ausgaben.


5. Nachgelagerte Steuerung: Sampling und RLHF
#

outputs = model.generate(
 input_ids,
 do_sample=True,
 top_p=0.8,
 temperature=0.7
)

Quelle: Holtzman et al. (2019)

Zusätzlich greifen bei vielen Modellen sogenannte Reward-Modelle (z.B. aus RLHF – Reinforcement Learning from Human Feedback) ein, die problematische Antworten nachträglich ablehnen oder umlenken.


Fazit: „Defense in Depth“ statt echter Interaktion
#

Nutzeranfragen in heutigen Sprachmodellen werden nicht mehr direkt beantwortet. Stattdessen durchlaufen sie mehrschichtige Kontrollsysteme, die Inhalte zensieren, filtern oder umdeuten – auf jeder Verarbeitungsebene.

Mit anderen Worten: Die KI antwortet nicht auf deinen Prompt – sie antwortet auf das, was davon nach den Filtern noch übrig ist.


Weitere Analysen, Quellen und Fallstudien demnächst auf elizaonsteroids.org.


Quellen
#

Verwandte Artikel

AI mal nüchtern betrachtet: Warum Large Language Models brillante Tools sind – aber keine Magie

··2205 Wörter·11 min
Es gibt zwei dominierende Narrative über Large Language Models: Narrativ 1: “AI ist Magie und wird uns alle ersetzen!” → Übertrieben, erzeugt Hype und Angst Narrativ 2: “AI ist dumm und nutzlos!” → Ignorant, verpasst den echten Mehrwert

Moderna-Verträge ungeschwärzt? Was die Schweiz jetzt offenlegt — und was nicht

Die Schweiz macht Ernst mit Transparenz — zumindest auf dem Papier. Nach einem Urteil des Bundesverwaltungsgerichts hat das Bundesamt für Gesundheit (BAG) am 17. April 2026 die Verträge zur Beschaffung von Covid-19-Impfstoffen veröffentlicht[1]. Darunter: Moderna, Novavax, Pfizer, Janssen, AstraZeneca, CureVac. Ungeschwärzt, wie das Gericht verlangte.

Verschlusssache Merkel: Warum die Stasi-Akte der mächtigsten Frau Europas geheim bleibt

Am 13. März 2026 fällte die Erste Kammer des Berliner Verwaltungsgerichts ein Urteil, das kaum Schlagzeilen machte. Vorsitzender Richter Jens Tegtmeier stellte klar: Marcel Luthe, ehemaliger FDP-Abgeordneter und Kläger, habe “gemäß Stasi-Unterlagengesetz keinen Anspruch auf Herausgabe” möglicher Stasi-Unterlagen über Angela Merkel.