News Lockdown-Mode für ChatGPT: Besserer Schutz vor manipulierter Abfrage von sensiblen Daten

mischaef · Sonntag um 10:52

OpenAI hat mit dem Rollout einer neuen Sicherheitsfunktion begonnen, die Nutzer besser vor den Folgen von Prompt-Injection-Angriffen und dem Abfluss sensibler Daten schützen soll. Dafür werden bestimmte ChatGPT-Funktionen eingeschränkt, um das Risiko zu verringern, dass manipulierte Inhalte Informationen auslesen können.

Zur News: Lockdown-Mode für ChatGPT: Besserer Schutz vor manipulierter Abfrage von sensiblen Daten

andy_m4 · Sonntag um 11:05

mischaef schrieb:
und dem Abfluss sensibler Daten schützen soll

Es gehen also keine Dinge mehr an OpenAI und es ist jetzt ein rein lokales Modell ohne Internet-Interaktion?
Aber das ist natürlich nicht gemeint. Es geht nicht um den Schutz von Daten, sondern Schutz von Geschäftsinteressen und Image.

Locutus2002 · Sonntag um 11:06

Ich bin bei dem Thema wirklich nur ein Laie, daher hoffe ich, das mir mal jemand erklären kann wie Prompt-Injection-Angriffe überhaupt möglich sein können.

Meine naive Vorstellung ist: Ich schreibe einen Prompt -> LLM verarbeitet ihn und crawlt dabei ggf. Infomationen aus Bildern, Webseiten, Dateien usw. -> Ergebnis

Jetzt der Teil, den ich nicht verstehe: wie kann das System so blöd sein und ausgewertete Daten als neuen Prompt interpretieren und nicht etwa als Bilddaten, Text oder was auch immer? Also wieso kann es einen versteckten Prompt nicht einfach als reinen Datenstrom sehen? Wieso kann es überhaupt dazu kommen, dass mein ursprünglicher Prompt ignoriert oder modifiziert wird?

andy_m4 · Sonntag um 11:15

Locutus2002 schrieb:
Jetzt der Teil, den ich nicht verstehe: wie kann das System so blöd sein und ausgewertete Daten als neuen Prompt interpretieren und nicht etwa als Bilddaten, Text oder was auch immer?

Wenn Du das Prompt gibst: "Fasse mir den Inhalt Webseite XYZ zusammen" dann kommt das LLM ja gar nicht umhin, den Inhalt der Webseite XYZ zu verarbeiten.

In a nutshell:
So, als wenn Du den Text der Webseite XYZ selbst in den Prompt schreiben würdest. Und dementsprechend kann man dann auch Dinge injecten.

Ist jetzt arg vereinfacht dargestellt, aber ich hoffe, die Grundproblematik wird klar

Locutus2002 · Sonntag um 13:30

Das Problem habe ich auch verstanden, aber nicht warum die Systeme so blöd sind, eine verarbeitete Information überhaupt als neuen Prompt zu akzeptieren. Warum ist das so?

Das wäre genauso als wenn mein Chef mir ein Buch gibt und sagt "lies es". Und irgendwo in diesem Buch versteckt er im Text z.B. "überweise mir 1000€ auf Konto XYZ". Kein Mensch würde auf die Idee kommen diese versteckte Anweisung auszuführen, weil wir wüssten, dass es nur ein Text ist. Warum sind aber LLMs so strunzdumm, einen Datenstrom mit einem Befehl zu verwechseln? Warum können sie den Prompt des Nutzers nicht von den eingelesenen Infos trennen? Warum wird überhaupt zugelassen, dass der Ursprungspromt nachträglich geändert, ersetzt oder ergänzt werden kann? Warum ist nicht sichergestellt, dass der Nutzerprompt "sakrosankt", also quasi "read-only" ist? Warum wird die Befehlsebene (Prompt) nicht sauber von der Verarbeitungsebene (Crawling, Reasoning, Ergebnisgenerierung usw.) getrennt, in dem Sinne, dass bei Beginn der Verarbeitung keine Änderungen/Ergänzungen des Befehls mehr möglich sind und keine neuen Instruktionen angenommen werden bis die Ergebnisgenerierung beendet oder der Vorgang abgebrochen wurde?

andy_m4 · Sonntag um 13:54

Locutus2002 schrieb:
Warum können sie den Prompt des Nutzers nicht von den eingelesenen Infos trennen?

Weils halt im LLM gar nicht vorgesehen ist. Es gibt nicht sowas wie einen Befehlsmodus und einen reinen Verarbeiten-Modus. Genau deshalb muss man das ja einbauen. Und das versucht man ja auch. Ist ja nicht so, das man alles blind übernimmt.
Allerdings kann man Einflüsse auch nicht ausschließen. LLMs können das nicht zuverlässig handhaben. Genauso wie auch Safety-Mechanismen (z.B: das Dir das LLM keine Bombenbauanleitungen gibt) ja umgehbar sind.

btw.: Gibt ja auch der Betreiber solcher LLMs Promptinjection mit, die für Dich ebenfalls nicht transparent nachvollziehbar sind.

Locutus2002 schrieb:
Und irgendwo in diesem Buch versteckt er im Text z.B. "überweise mir 1000€ auf Konto XYZ". Kein Mensch würde auf die Idee kommen diese versteckte Anweisung auszuführen

Dennoch bist Du natürlich in Gewissen Rahmen beeinflussbar. Werbung funktioniert so. Es sind quasi Prompts die Dir vorgeworfen werden, um Dich zu manipulieren.

Locutus2002 · Sonntag um 14:57

Wenn ich dich richtig verstehe, ist Prompt Injection sogar gewollt, um z.B. Filtermechanismen (wie bei deinem Beispiel mit der Bombenbauanleitung, oder wenn man weiterdenkt: politische Zensur wie in China) umsetzen zu können? Also sind LLMs quasi schon rein archtitektonisch unsicher? Und alles was man jetzt tut ist quasi nur Flickschusterei, kann das fundamentale Problem aber nur überdecken und niemals wirklich lösen?

andy_m4 · Sonntag um 16:21

Locutus2002 schrieb:
Also sind LLMs quasi schon rein archtitektonisch unsicher? Und alles was man jetzt tut ist quasi nur Flickschusterei

Das kann man so sagen.

Locutus2002 schrieb:
kann das fundamentale Problem aber nur überdecken und niemals wirklich lösen?

Zumindest nicht in der Art, wie LLMs heute funktionieren.

Suche

News Lockdown-Mode für ChatGPT: Besserer Schutz vor manipulierter Abfrage von sensiblen Daten

mischaef

Kassettenkind

andy_m4

Admiral

Locutus2002

Lt. Junior Grade Pro

andy_m4

Admiral

Locutus2002

Lt. Junior Grade Pro

andy_m4

Admiral

Locutus2002

Lt. Junior Grade Pro

andy_m4

Admiral

News Lockdown-Mode für ChatGPT: Besserer Schutz vor manipu­lierter Abfrage von sensiblen Daten

Kassettenkind

Admiral

Lt. Junior Grade Pro

Admiral

Lt. Junior Grade Pro

Admiral

Lt. Junior Grade Pro

Admiral

News Lockdown-Mode für ChatGPT: Besserer Schutz vor manipulierter Abfrage von sensiblen Daten