Fireplace April 2026

News Lockdown-Mode für ChatGPT: Besserer Schutz vor manipu­lierter Abfrage von sensiblen Daten

mischaef

Kassettenkind
Teammitglied
Registriert
Aug. 2012
Beiträge
7.599
  • Gefällt mir
Reaktionen: nuego
mischaef schrieb:
und dem Abfluss sensibler Daten schützen soll
Es gehen also keine Dinge mehr an OpenAI und es ist jetzt ein rein lokales Modell ohne Internet-Interaktion?
Aber das ist natürlich nicht gemeint. Es geht nicht um den Schutz von Daten, sondern Schutz von Geschäftsinteressen und Image.
 
  • Gefällt mir
Reaktionen: slow_snail und Termy
Ich bin bei dem Thema wirklich nur ein Laie, daher hoffe ich, das mir mal jemand erklären kann wie Prompt-Injection-Angriffe überhaupt möglich sein können.

Meine naive Vorstellung ist: Ich schreibe einen Prompt -> LLM verarbeitet ihn und crawlt dabei ggf. Infomationen aus Bildern, Webseiten, Dateien usw. -> Ergebnis

Jetzt der Teil, den ich nicht verstehe: wie kann das System so blöd sein und ausgewertete Daten als neuen Prompt interpretieren und nicht etwa als Bilddaten, Text oder was auch immer? Also wieso kann es einen versteckten Prompt nicht einfach als reinen Datenstrom sehen? Wieso kann es überhaupt dazu kommen, dass mein ursprünglicher Prompt ignoriert oder modifiziert wird?
 
  • Gefällt mir
Reaktionen: lordZ
Locutus2002 schrieb:
Jetzt der Teil, den ich nicht verstehe: wie kann das System so blöd sein und ausgewertete Daten als neuen Prompt interpretieren und nicht etwa als Bilddaten, Text oder was auch immer?
Wenn Du das Prompt gibst: "Fasse mir den Inhalt Webseite XYZ zusammen" dann kommt das LLM ja gar nicht umhin, den Inhalt der Webseite XYZ zu verarbeiten.

In a nutshell:
So, als wenn Du den Text der Webseite XYZ selbst in den Prompt schreiben würdest. Und dementsprechend kann man dann auch Dinge injecten.

Ist jetzt arg vereinfacht dargestellt, aber ich hoffe, die Grundproblematik wird klar
 
  • Gefällt mir
Reaktionen: flo.murr, lordZ und Astra-G
Das Problem habe ich auch verstanden, aber nicht warum die Systeme so blöd sind, eine verarbeitete Information überhaupt als neuen Prompt zu akzeptieren. Warum ist das so?

Das wäre genauso als wenn mein Chef mir ein Buch gibt und sagt "lies es". Und irgendwo in diesem Buch versteckt er im Text z.B. "überweise mir 1000€ auf Konto XYZ". Kein Mensch würde auf die Idee kommen diese versteckte Anweisung auszuführen, weil wir wüssten, dass es nur ein Text ist. Warum sind aber LLMs so strunzdumm, einen Datenstrom mit einem Befehl zu verwechseln? Warum können sie den Prompt des Nutzers nicht von den eingelesenen Infos trennen? Warum wird überhaupt zugelassen, dass der Ursprungspromt nachträglich geändert, ersetzt oder ergänzt werden kann? Warum ist nicht sichergestellt, dass der Nutzerprompt "sakrosankt", also quasi "read-only" ist? Warum wird die Befehlsebene (Prompt) nicht sauber von der Verarbeitungsebene (Crawling, Reasoning, Ergebnisgenerierung usw.) getrennt, in dem Sinne, dass bei Beginn der Verarbeitung keine Änderungen/Ergänzungen des Befehls mehr möglich sind und keine neuen Instruktionen angenommen werden bis die Ergebnisgenerierung beendet oder der Vorgang abgebrochen wurde?
 
Zuletzt bearbeitet:
Locutus2002 schrieb:
Warum können sie den Prompt des Nutzers nicht von den eingelesenen Infos trennen?
Weils halt im LLM gar nicht vorgesehen ist. Es gibt nicht sowas wie einen Befehlsmodus und einen reinen Verarbeiten-Modus. Genau deshalb muss man das ja einbauen. Und das versucht man ja auch. Ist ja nicht so, das man alles blind übernimmt.
Allerdings kann man Einflüsse auch nicht ausschließen. LLMs können das nicht zuverlässig handhaben. Genauso wie auch Safety-Mechanismen (z.B: das Dir das LLM keine Bombenbauanleitungen gibt) ja umgehbar sind.

btw.: Gibt ja auch der Betreiber solcher LLMs Promptinjection mit, die für Dich ebenfalls nicht transparent nachvollziehbar sind.

Locutus2002 schrieb:
Und irgendwo in diesem Buch versteckt er im Text z.B. "überweise mir 1000€ auf Konto XYZ". Kein Mensch würde auf die Idee kommen diese versteckte Anweisung auszuführen
Dennoch bist Du natürlich in Gewissen Rahmen beeinflussbar. Werbung funktioniert so. Es sind quasi Prompts die Dir vorgeworfen werden, um Dich zu manipulieren.
 
Wenn ich dich richtig verstehe, ist Prompt Injection sogar gewollt, um z.B. Filtermechanismen (wie bei deinem Beispiel mit der Bombenbauanleitung, oder wenn man weiterdenkt: politische Zensur wie in China) umsetzen zu können? Also sind LLMs quasi schon rein archtitektonisch unsicher? Und alles was man jetzt tut ist quasi nur Flickschusterei, kann das fundamentale Problem aber nur überdecken und niemals wirklich lösen?
 
Locutus2002 schrieb:
Also sind LLMs quasi schon rein archtitektonisch unsicher? Und alles was man jetzt tut ist quasi nur Flickschusterei
Das kann man so sagen.

Locutus2002 schrieb:
kann das fundamentale Problem aber nur überdecken und niemals wirklich lösen?
Zumindest nicht in der Art, wie LLMs heute funktionieren.
 
  • Gefällt mir
Reaktionen: Locutus2002
Zurück
Oben