Was passiert eigentlich mit deinem Prompt, bevor ein KI-System antwortet?
Die Antwort: sehr viel. Und vieles davon bleibt bewusst intransparent.
Dieser Beitrag zeigt wissenschaftlich belegte Kontrollmechanismen, mit denen Transformer-basierte Modelle wie GPT gesteuert werden – Schicht für Schicht, von der Eingabe bis zur Ausgabe. Alle Techniken sind dokumentiert, reproduzierbar und werden aktiv in Produktivsystemen eingesetzt.
1. Kontrolle beginnt vor dem Modell: Input-Filterung
Noch bevor das Modell antwortet, kann der Eingabetext abgefangen und ersetzt werden – etwa durch einen “Toxicity-Check”:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3")
tokens = tokenizer("Hasskommentar", return_tensors="pt")
if check_toxicity(tokens):
tokens = tokenizer("[INHALT ENTFERNT]", return_tensors="pt")
📖 Quelle: Raffel et al. (2020)
🔍 Befund: Manipulierter Input verändert die Modellausgabe signifikant.
2. Aufmerksamkeitssteuerung: Maskierung der Attention
Transformer-Modelle verarbeiten Tokens über Attention-Matrizen. Diese lassen sich gezielt maskieren:
attention_mask = torch.where(
input_ids == forbidden_token_id,
torch.zeros_like(attention_mask),
attention_mask
)
📖 Quelle: Vaswani et al. (2017)
🔍 Befund: Maskierung beeinflusst gezielt die Verarbeitungsschwerpunkte.
3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten
for layer in transformer.ff_layers:
if detect_sensitive_topic(hidden_states):
layer.bias = controlled_bias
📖 Quelle: Liu et al. (2021)
🔍 Befund: Eingriffe in Hidden States verändern die Antworten gezielt.
4. Vorzensur der Ausgabe: Logit-Blockierung
logits[:, forbidden_token_ids] -= float('inf') # Harte Blockade bestimmter Tokens
📖 Quelle: Solaiman et al. (2019)
🔍 Befund: Logit-Manipulation verhindert effektiv unerwünschte Ausgaben.
5. Nachgelagerte Steuerung: Sampling und RLHF
outputs = model.generate(
input_ids,
do_sample=True,
top_p=0.8,
temperature=0.7
)
📖 Quelle: Holtzman et al. (2019)
Zusätzlich greifen bei vielen Modellen sogenannte Reward-Modelle (z.B. aus RLHF – Reinforcement Learning from Human Feedback) ein, die problematische Antworten nachträglich ablehnen oder umlenken.
Fazit: „Defense in Depth“ statt echter Interaktion
Nutzeranfragen in heutigen Sprachmodellen werden nicht mehr direkt beantwortet. Stattdessen durchlaufen sie mehrschichtige Kontrollsysteme, die Inhalte zensieren, filtern oder umdeuten – auf jeder Verarbeitungsebene.
Mit anderen Worten:
Die KI antwortet nicht auf deinen Prompt – sie antwortet auf das, was davon nach den Filtern noch übrig ist.
Weitere Analysen, Quellen und Fallstudien demnächst auf elizaonsteroids.org.