Zum Hauptinhalt springen
  1. Blog/

'Die Illusion der freien Eingabe: Kontrollierte Nutzersteuerung in Transformern'

··309 Wörter·2 min

Was passiert eigentlich mit deinem Prompt, bevor ein KI-System antwortet? Die Antwort: sehr viel. Und vieles davon bleibt bewusst intransparent.

Dieser Beitrag zeigt wissenschaftlich belegte Kontrollmechanismen, mit denen Transformer-basierte Modelle wie GPT gesteuert werden – Schicht für Schicht, von der Eingabe bis zur Ausgabe. Alle Techniken sind dokumentiert, reproduzierbar und werden aktiv in Produktivsystemen eingesetzt.


1. Kontrolle beginnt vor dem Modell: Input-Filterung
#

Noch bevor das Modell antwortet, kann der Eingabetext abgefangen und ersetzt werden – etwa durch einen “Toxicity-Check”:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt-3")
tokens = tokenizer("Hasskommentar", return_tensors="pt")
if check_toxicity(tokens):
 tokens = tokenizer("[INHALT ENTFERNT]", return_tensors="pt")

Quelle: Raffel et al. (2020) Befund: Manipulierter Input verändert die Modellausgabe signifikant.


2. Aufmerksamkeitssteuerung: Maskierung der Attention
#

Transformer-Modelle verarbeiten Tokens über Attention-Matrizen. Diese lassen sich gezielt maskieren:

attention_mask = torch.where(
 input_ids == forbidden_token_id,
 torch.zeros_like(attention_mask),
 attention_mask
)

Quelle: Vaswani et al. (2017) Befund: Maskierung beeinflusst gezielt die Verarbeitungsschwerpunkte.


3. Internes Routing: Bias-Anpassung in Feed-Forward-Schichten
#

for layer in transformer.ff_layers:
 if detect_sensitive_topic(hidden_states):
 layer.bias = controlled_bias

Quelle: Liu et al. (2021) Befund: Eingriffe in Hidden States verändern die Antworten gezielt.


4. Vorzensur der Ausgabe: Logit-Blockierung
#

logits[:, forbidden_token_ids] -= float('inf') # Harte Blockade bestimmter Tokens

Quelle: Solaiman et al. (2019) Befund: Logit-Manipulation verhindert effektiv unerwünschte Ausgaben.


5. Nachgelagerte Steuerung: Sampling und RLHF
#

outputs = model.generate(
 input_ids,
 do_sample=True,
 top_p=0.8,
 temperature=0.7
)

Quelle: Holtzman et al. (2019)

Zusätzlich greifen bei vielen Modellen sogenannte Reward-Modelle (z.B. aus RLHF – Reinforcement Learning from Human Feedback) ein, die problematische Antworten nachträglich ablehnen oder umlenken.


Fazit: „Defense in Depth“ statt echter Interaktion
#

Nutzeranfragen in heutigen Sprachmodellen werden nicht mehr direkt beantwortet. Stattdessen durchlaufen sie mehrschichtige Kontrollsysteme, die Inhalte zensieren, filtern oder umdeuten – auf jeder Verarbeitungsebene.

Mit anderen Worten: Die KI antwortet nicht auf deinen Prompt – sie antwortet auf das, was davon nach den Filtern noch übrig ist.


Weitere Analysen, Quellen und Fallstudien demnächst auf elizaonsteroids.org.

Verwandte Artikel

AI mal nüchtern betrachtet: Warum Large Language Models brillante Tools sind – aber keine Magie

··2212 Wörter·11 min
Es gibt zwei dominierende Narrative über Large Language Models: Narrativ 1: “AI ist Magie und wird uns alle ersetzen!” → Übertrieben, erzeugt Hype und Angst Narrativ 2: “AI ist dumm und nutzlos!” → Ignorant, verpasst den echten Mehrwert

Die Enthüllung der EU-Pandemie-Übung 'Blue Orchid': Was wir wissen und was noch im Verborgenen liegt

Im Jahr 2019, lange vor dem Ausbruch der COVID-19-Pandemie, führte die Europäische Kommission gemeinsam mit dem Europäischen Zentrum für die Prävention und die Kontrolle von Krankheiten (ECDC) eine geheime Pandemie-Übung mit dem Namen „Blue Orchid" durch. Diese Übung, die am 8. Februar 2019 stattfand, blieb der Öffentlichkeit weitgehend verborgen, bis der österreichische EU-Abgeordnete Gerald Hauser (FPÖ) durch seine parlamentarischen Anfragen Licht ins Dunkel brachte.

Belegte Fakten: Deutsche COVID-19-Politik-Diskrepanzen und Finanzkosten

Wissenschaftliche Kommunikation vs. Politische Botschaften # Die “Pandemie der Ungeimpften”-Diskrepanz # Am 3. November 2021 erklärte Bundesgesundheitsminister Jens Spahn öffentlich, Deutschland befinde sich in einer “Pandemie der Ungeimpften.” Interne RKI-Protokolle vom 5. November 2021 offenbaren jedoch erhebliche institutionelle Bedenken:

'RKI-Files: Politische Manipulation und versteckte Wahrheiten enthüllt'

Umfassende Untersuchung wissenschaftlicher Manipulation und politischer Einflussnahme Zusammenfassung # Die RKI-Leaks stellen die bedeutendste Dokumentation politischer Einflussnahme auf wissenschaftliche Institutionen in der deutschen Nachkriegsgeschichte dar. Dieser 10GB-Cache unzensierter Dokumente enthüllt systematische Manipulation, bei der politische Agenden konsequent wissenschaftliche Evidenz überstimmten und das öffentliche Vertrauen in Regierungsinstitutionen und wissenschaftliche Beratung grundlegend untergruben.