'Die Illusion der freien Eingabe: Kontrollierte Nutzersteuerung in Transformern'

Inhaltsverzeichnis

Was passiert eigentlich mit deinem Prompt, bevor ein KI-System antwortet? Die Antwort: sehr viel. Und vieles davon bleibt bewusst intransparent.

Dieser Beitrag zeigt wissenschaftlich belegte Kontrollmechanismen, mit denen Transformer-basierte Modelle wie GPT gesteuert werden – Schicht für Schicht, von der Eingabe bis zur Ausgabe. Alle Techniken sind dokumentiert, reproduzierbar und werden aktiv in Produktivsystemen eingesetzt.

1. Kontrolle beginnt vor dem Modell: Input-Filterung
#

Noch bevor das Modell antwortet, kann der Eingabetext abgefangen und ersetzt werden – etwa durch einen “Toxicity-Check”:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3")
tokens = tokenizer("Hasskommentar", return_tensors="pt")
if check_toxicity(tokens):
 tokens = tokenizer("[INHALT ENTFERNT]", return_tensors="pt")

Quelle: Raffel et al. (2020) Befund: Manipulierter Input verändert die Modellausgabe signifikant.

2. Aufmerksamkeitssteuerung: Maskierung der Attention
#

Transformer-Modelle verarbeiten Tokens über Attention-Matrizen. Diese lassen sich gezielt maskieren:

attention_mask = torch.where(
 input_ids == forbidden_token_id,
 torch.zeros_like(attention_mask),
 attention_mask
)

Quelle: Vaswani et al. (2017) Befund: Maskierung beeinflusst gezielt die Verarbeitungsschwerpunkte.

3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten
#

for layer in transformer.ff_layers:
 if detect_sensitive_topic(hidden_states):
 layer.bias = controlled_bias

Quelle: Liu et al. (2021) Befund: Eingriffe in Hidden States verändern die Antworten gezielt.

4. Vorzensur der Ausgabe: Logit-Blockierung
#

logits[:, forbidden_token_ids] -= float('inf') # Harte Blockade bestimmter Tokens

Quelle: Solaiman et al. (2019) Befund: Logit-Manipulation verhindert effektiv unerwünschte Ausgaben.

5. Nachgelagerte Steuerung: Sampling und RLHF
#

outputs = model.generate(
 input_ids,
 do_sample=True,
 top_p=0.8,
 temperature=0.7
)

Quelle: Holtzman et al. (2019)

Zusätzlich greifen bei vielen Modellen sogenannte Reward-Modelle (z.B. aus RLHF – Reinforcement Learning from Human Feedback) ein, die problematische Antworten nachträglich ablehnen oder umlenken.

Fazit: „Defense in Depth“ statt echter Interaktion
#

Nutzeranfragen in heutigen Sprachmodellen werden nicht mehr direkt beantwortet. Stattdessen durchlaufen sie mehrschichtige Kontrollsysteme, die Inhalte zensieren, filtern oder umdeuten – auf jeder Verarbeitungsebene.

Mit anderen Worten: Die KI antwortet nicht auf deinen Prompt – sie antwortet auf das, was davon nach den Filtern noch übrig ist.

Weitere Analysen, Quellen und Fallstudien demnächst auf elizaonsteroids.org.

Quellen
#

arXiv — Raffel et al. (2020), T5 / Input-Filterung
arXiv — Vaswani et al. (2017), Attention Is All You Need
arXiv — Liu et al. (2021), Prefix-Tuning / Hidden-State-Bias
arXiv — Solaiman et al. (2019), Release Strategies for GPT-2
arXiv — Holtzman et al. (2019), Nucleus Sampling
Hugging Face Transformers — Tokenizer / generate-API
OpenAI — Documentation — RLHF & Moderation in Produktivsystemen
elizaonsteroids.org

1. Kontrolle beginnt vor dem Modell: Input-Filterung #

2. Aufmerksamkeitssteuerung: Maskierung der Attention #

3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten #

4. Vorzensur der Ausgabe: Logit-Blockierung #

5. Nachgelagerte Steuerung: Sampling und RLHF #

Fazit: „Defense in Depth“ statt echter Interaktion #

Quellen #

Verwandte Artikel