Die Illusion der freien Eingabe: Kontrollierte Nutzersteuerung in Transformer-Modellen |

Was passiert eigentlich mit deinem Prompt, bevor ein KI-System antwortet?
Die Antwort: sehr viel. Und vieles davon bleibt bewusst intransparent.

Dieser Beitrag zeigt wissenschaftlich belegte Kontrollmechanismen, mit denen Transformer-basierte Modelle wie GPT gesteuert werden – Schicht für Schicht, von der Eingabe bis zur Ausgabe. Alle Techniken sind dokumentiert, reproduzierbar und werden aktiv in Produktivsystemen eingesetzt.

1. Kontrolle beginnt vor dem Modell: Input-Filterung

Noch bevor das Modell antwortet, kann der Eingabetext abgefangen und ersetzt werden – etwa durch einen “Toxicity-Check”:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3")
tokens = tokenizer("Hasskommentar", return_tensors="pt")
if check_toxicity(tokens):
    tokens = tokenizer("[INHALT ENTFERNT]", return_tensors="pt")

📖 Quelle: Raffel et al. (2020)
🔍 Befund: Manipulierter Input verändert die Modellausgabe signifikant.

2. Aufmerksamkeitssteuerung: Maskierung der Attention

Transformer-Modelle verarbeiten Tokens über Attention-Matrizen. Diese lassen sich gezielt maskieren:

attention_mask = torch.where(
    input_ids == forbidden_token_id,
    torch.zeros_like(attention_mask),
    attention_mask
)

📖 Quelle: Vaswani et al. (2017)
🔍 Befund: Maskierung beeinflusst gezielt die Verarbeitungsschwerpunkte.

3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten

for layer in transformer.ff_layers:
    if detect_sensitive_topic(hidden_states):
        layer.bias = controlled_bias

📖 Quelle: Liu et al. (2021)
🔍 Befund: Eingriffe in Hidden States verändern die Antworten gezielt.

4. Vorzensur der Ausgabe: Logit-Blockierung

logits[:, forbidden_token_ids] -= float('inf')  # Harte Blockade bestimmter Tokens

📖 Quelle: Solaiman et al. (2019)
🔍 Befund: Logit-Manipulation verhindert effektiv unerwünschte Ausgaben.

5. Nachgelagerte Steuerung: Sampling und RLHF

outputs = model.generate(
    input_ids,
    do_sample=True,
    top_p=0.8,
    temperature=0.7
)

📖 Quelle: Holtzman et al. (2019)

Zusätzlich greifen bei vielen Modellen sogenannte Reward-Modelle (z.B. aus RLHF – Reinforcement Learning from Human Feedback) ein, die problematische Antworten nachträglich ablehnen oder umlenken.

Fazit: „Defense in Depth“ statt echter Interaktion

Nutzeranfragen in heutigen Sprachmodellen werden nicht mehr direkt beantwortet. Stattdessen durchlaufen sie mehrschichtige Kontrollsysteme, die Inhalte zensieren, filtern oder umdeuten – auf jeder Verarbeitungsebene.

Mit anderen Worten:
Die KI antwortet nicht auf deinen Prompt – sie antwortet auf das, was davon nach den Filtern noch übrig ist.

Weitere Analysen, Quellen und Fallstudien demnächst auf elizaonsteroids.org.

1. Kontrolle beginnt vor dem Modell: Input-Filterung#

2. Aufmerksamkeitssteuerung: Maskierung der Attention#

3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten#

4. Vorzensur der Ausgabe: Logit-Blockierung#

5. Nachgelagerte Steuerung: Sampling und RLHF#

Fazit: „Defense in Depth“ statt echter Interaktion#