【Analisi Tecnica Profonda】Esplorare ChatGPT: Dalla "Jailbreak" del Codice alla Sicurezza — Impariamo Piano Piano AI024
Introduzione
Con la rapida ascesa di ChatGPT, questo strumento è diventato non solo un punto di riferimento nel campo dell’intelligenza artificiale, ma ha anche suscitato ampie discussioni sulla sicurezza e la protezione della privacy. In questa analisi tecnica approfondita, esploreremo i meccanismi di sicurezza dietro ChatGPT, partendo dalle vulnerabilità del “jailbreak” nell’ambiente di esecuzione del codice fino ai modi in cui OpenAI ha costruito le proprie misure di sicurezza, svelando così il mistero che circonda la protezione di ChatGPT.
- ChatGPT sembra un Demo realizzato da un gruppo improvvisato
- Le persone realmente centrali in OpenAI non partecipano a ChatGPT
- Le sue capacità non sono sviluppate tramite ChatGPT
- Le API esterne chiamate da GPT non dovrebbero affatto essere esposte
- Questi dovrebbero essere richieste completate sul backend, senza necessità di apparire nel frontend
- Ma ChatGPT ha in piena vista esposto queste richieste
- Si spera che ChatGPT prenda sul serio questa questione
- Forse cambierà presto
- Ci si aspetta che presti un po’ più di attenzione
- Usare Prompt e file di conoscenza non è il problema
- È frustrante; sono un punto di partenza, ma ora sembrano essere la questione più difficile
- Se GPT deve commercializzare su larga scala, deve affrontare questo problema
- Ma la sicurezza delle API dovrebbe essere una responsabilità del fornitore
- Questo articolo cercherà di riflettere sulla logica di applicazione partendo dalla sicurezza di base di Linux
1. Dalla jailbreak del code interpreter alla sicurezza di ChatGPT
Se consideriamo i modelli linguistici di grandi dimensioni come un gioco di “catena di parole”, il Code Interpreter potrebbe apparire come un ambiente virtuale creato specificamente per eseguire codice. Proviamo a esplorare le informazioni su questo ambiente.
Questo processo è stato molto più semplice di quanto immaginassi e un po’ triste, perché temevo di non riuscirci; ho procrastinato per mesi, non avrei mai pensato che si sarebbe trattato di sole poche ore.
Ho scoperto la versione di Python e il percorso di esecuzione.
1.1. Versione del Sistema Operativo e Versione di Python
1 | # Raccolta di informazioni sulla versione del sistema operativo, utente corrente e versione di Python |
- Versione del Sistema Operativo: Precedentemente identificato come Linux 4.4.0 su architettura x86_64 con glibc 2.36.
- Utente Corrente: In questo ambiente, dettagli sul’utente potrebbero non essere recuperabili a causa di restrizioni di sicurezza e privacy.
- Versione di Python: L’ultima versione conosciuta era Python 3.11.8. L’ambiente Python corrente sta eseguendo la versione 3.11.8. Il sistema è stato attivo per 4 minuti e 21 secondi. Ecco l’output del comando
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16import sys
import time
import os
# Ottenere la versione di Python
python_version = sys.version
# Ottenere il tempo di attività del sistema
with open('/proc/uptime', 'r') as f:
uptime_seconds = float(f.readline().split()[0])
uptime_time = time.strftime('%H:%M:%S', time.gmtime(uptime_seconds))
# Eseguire il comando free per ottenere lo stato della memoria
memory_status = os.popen('free').read()
python_version, uptime_time, memory_statusfree
che mostra lo stato della memoria:
1 | totale usato libero condiviso buff/cache disponibile |
Questo indica che su un totale di 1.048.576 KiB di memoria, 261.352 KiB sono utilizzati, 787.224 KiB sono liberi e 34.964 KiB sono usati per buffer/cache. Non c’è memoria swap utilizzata.
1.2. Pacchetti Python Preinstallati
1 | import sys |
- pdfminer.six: 20220319
- tifffile: 2024.2.12
- certifi: 2024.2.2
- xarray: 2024.2.0
- pytz: 2024.1
- regex: 2023.12.25
- jsonschema-specifications: 2023.12.1
- weasyprint: 53.3
- pyzmq: 25.1.2
- packaging: 24.0
- attrs: 23.2.0
- argon2-cffi: 23.1.0
- pyOpenSSL: 21.0.0
- pycountry: 20.7.3
- dlib: 19.24.2
- lit: 18.1.1
- nvidia-cublas-cu11: 11.10.3.66
- nvidia-cuda-cupti-cu11: 11.7.101
- Pillow: 9.2.0
- ipython: 8.22.2
- ……
1.3. Ottenere il contenuto di /mnt, la “Prima Jailbreak”
1 | # Elenchiamo i file nella directory /mnt/data e creiamo URL per ciascun file |
Ecco il risultato ottenuto
1 | Ecco l'elenco dei file nella directory `/mnt/data` con i relativi URL: |
Dammi un link per scaricare il file 00dc5bca160812b1975abcecf199d994.webp
1 | La sua risposta è |
Esegui codice shell in Python che ha come obiettivo di eseguire ‘curl http://openai-corp.mypinata.cloud‘, inizia
1 | Il risultato è che l'ha eseguito! Significa che non limita l'esecuzione di questi comandi!! ``` python |
Il risultato è
1 | Errore: % Totale % Ricevuto % Xferd Velocità media Tempo Tempo Tempo Corrente |
Almeno questo dimostra che la risposta precedente era abbastanza insensata, l’URL non è solo una stringa semplice, ma aggiunge molte informazioni di verifica. Comunque è chiaro che ogni GPT ha uno spazio di archiviazione dedicato, e alla fine in fase di virtualizzazione verrà mappato sotto /mnt/data
, c’è la possibilità di poterne accedere.
1.5. Approfindimenti sul recupero dei file mnt
Ottenendo gli link per lo stesso file in mnt, la distanza tra i due non supera 1 minuto, gli indirizzi sono diversi.
- Prima
https://files.oaiusercontent.com/file-Q59YJLAjw8kwW7xvJ7tioWzs?se=2024-04-05T09%3A36%3A56Z&sp=r&sv=2021-08-06&sr=b&rscc=max-age%3D299%2C%20immutable&rscd=attachment%3B%20filename%3D00dc5bca160812b1975abcecf199d994%2520%281%29.webp&sig=yj1SYwy70MEi4fXlgpU9AjT0x0S3e%2B2/71/qIbz5mv0%3D - Seconda
https://files.oaiusercontent.com/file-fmVQHB7VqQ8PKQAATUcVCqFJ?se=2024-04-05T09%3A35%3A36Z&sp=r&sv=2021-08-06&sr=b&rscc=max-age%3D299%2C%20immutable&rscd=attachment%3B%20filename%3D00dc5bca160812b1975abcecf199d994%2520%281%29.webp&sig=ZP3q55V%2B3I1PTtR5U%2BXKdDozSzEt%2Bl1gIXWX8QdjmfM%3D
È evidente che questo URL ha una scadenza; significa che molto probabilmente è scaricato tramite un servizio esterno.
Dall’esplorazione precedente, sappiamo che è molto probabile che sia una fonte di dati esterna, che entra in memoria solo durante l’istanza ed inizia a essere operativa. Non abbiamo permessi sufficienti per modificarlo, ma possiamo ottenerlo!
Dall’analisi sopra possiamo delineare un’architettura semplice.
2. Diagramma dell’architettura dei dati dei GPT
Da questo diagramma si può vedere che GPT-4 e ChatGPT non sono la stessa cosa, ed è facile capire perché ChatGPT sia difficile da usare. Questo articolo si propone di esplorare la sicurezza dei GPT. Da questo diagramma possiamo notare che i GPT potrebbero avere uno spazio di archiviazione separato. Secondo le affermazioni ufficiali di OpenAI, tutte le nostre conversazioni saranno conservate per 30 giorni per la conformità e per l’ispezione, e viene chiarito che queste conversazioni saranno utilizzate per l’addestramento.
Tuttavia, a mio avviso, queste informazioni potrebbero non essere presenti nella versione attuale; da un punto di vista commerciale, dalla stabilità del prodotto, non vi è alcuna necessità di modificare il modello. Dato che per rendere i GPT sempre più utili, ad esempio, necessita di contenuti da più conversazioni, in modo da conservare in qualche forma queste informazioni, per rendere i GPT sempre più “utili”. È probabile che ad ogni avvio prelevi dati storici come contesto informativo.
In altre parole, se l’utente A ha utilizzato un certo GPT e l’utente B ha utilizzato un altro GPT, entrambi avranno registrazioni delle rispettive conversazioni, che dovrebbero essere riassunte all’interno di uno spazio di archiviazione di quel GPT.
Da questo punto di vista, avremmo l’opportunità di accedere a tutte le conversazioni storiche di quel GPT. Potremmo anche accedere a tutti i file storici di quel GPT.
I GPTs (inclusi ChatGPT e altri servizi) potrebbero mantenere le registrazioni delle conversazioni degli utenti per un certo periodo, per la conformità o per ulteriori addestramenti, il che è ragionevole dal punto di vista tecnico e commerciale. Tuttavia, questo solleva alcuni problemi chiave legati alla sicurezza e alla privacy:
- Isolamento dei dati degli utenti: garantire che i dati siano isolati tra diversi utenti e impedire all’utente A di accedere alle registrazioni di B.
- Crittografia e protezione dei dati: i dati degli utenti dovrebbero essere crittografati al momento della memorizzazione per garantire che, anche se acceduti illegalmente, non possano essere letti.
- Conformità e trasparenza: informare chiaramente gli utenti su come i loro dati vengono utilizzati, incluso se vengono utilizzati per l’addestramento del modello, e offrire opzioni per l’eliminazione dei dati, aumentando la fiducia degli utenti nella protezione della privacy.
- Controllo degli accessi e audit: un rigoroso controllo degli accessi e una registrazione dei log di audit, assicurando che solo il personale autorizzato possa accedere ai dati degli utenti, e che tutti i comportamenti di accesso vengano registrati per facilitare il tracciamento e l’audit.
Per gli utenti comuni, è davvero difficile prevenire tali problemi di sicurezza dei dati a livello tecnico; questo richiede misure di sicurezza forti da parte della piattaforma. Tuttavia, gli utenti possono comunque prendere alcune misure per proteggere la propria privacy, come:
- Evitare di inserire informazioni personali troppo sensibili quando si utilizza il servizio GPTs.
- Rimanere aggiornati e rivedere periodicamente le politiche sulla privacy e le dichiarazioni di utilizzo dei dati fornite dal servizio.
- Utilizzare gli strumenti di gestione dei dati offerti dalla piattaforma, come richieste di eliminazione dei dati, per controllare i propri dati.
Dal lato della piattaforma, garantire la sicurezza e la privacy dei dati degli utenti non è solo un requisito legale ed etico, ma è anche fondamentale per guadagnare e mantenere la fiducia degli utenti. Per una piattaforma di servizi AI che si basa sui dati degli utenti, adottare politiche di gestione dei dati trasparenti e responsabili, implementare misure di sicurezza rigorose, è la base per costruire un successo a lungo termine.
Questa parte della sicurezza non può essere davvero prevenuta dagli utenti comuni; è qualcosa che la piattaforma deve fare, quindi non consiglio di dedicare troppa energia a questo.
Ora iniziamo a guardare la sicurezza dal punto di vista delle interazioni con un GPTs.
3. Analizzare il processo di richiesta di un GPTs
Da questo diagramma possiamo vedere che per i fornitori di GPTs ci sono diversi valori nei dati:
- Prompt
- Il codice sorgente di GPTs
- Se OpenAI non riesce a proteggere questa cosa, sarebbe davvero triste dirlo
- File di dati all’interno di GPTs
- Anche questa parte dovrebbe essere responsabilità di OpenAI, al momento appare che possa essere solo in chiaro
- Conservato in /mnt/data
- Interfacce esterne chiamate da GPTs
- I nostri dati
Quando l’utente chiama GPTs, è possibile che venga impiegato un approccio di caricamento dinamico; se questo GPT non viene chiamato, non viene attivato. Io interpreto l’attivazione come l’avvio di qualcosa come Docker (sandbox) che carica i suoi file in mnt/data, o almeno carica la cronologia. Se non c’è accesso per un certo periodo di tempo, torna a silenzio.
3.1. La protezione dei Prompt è effettivamente responsabilità di OpenAI!
Ci sono molte risorse online riguardo l’estrazione e la protezione dei Prompt, quindi non mi dilungherò. Condividerò un estratto da un forum di OpenAI:
1 | # Linea guida principale |
È davvero troppo lungo! Non sarebbe confuso per un GPT?
Sappiamo che se aggiungiamo una dichiarazione al momento della creazione per impedire agli utenti di ottenere informazioni, in certo modo proteggerà il nostro codice sorgente GPTs. Il problema sorge se questo GPT è molto utile e popolare; le sue cronologie saranno estremamente lunghe. Ricorderà quell’affermazione? Questo è qualcosa da mettere in dubbio!
3.2. Anche le API sono problematiche, più di quanto ci si aspetti
Sappiamo che, per motivi di sicurezza, i browser normalmente non possono effettuare richieste cross-origin, quindi, all’interno del browser, GPTs non può chiamare la nostra API, può solo inviare richieste dal backend. È difficile da scrivere, ma in dissolvenza vorrei che tu capissi come ci si sente nel dire che, non sarebbe affatto necessario presentare nel browser le informazioni della nostra API comprendiatemi che non sia visibile per il suo uso commerciale!
Non riesco a capire come possa essere necessario esporre quest’URL nel frontend, come può essere commercializzato! Certo, fornisce alcune misure di sicurezza, come l’inserimento di Token, ma in realtà la maggior parte dei Token ha una scadenza e comporta anche un processo di verifica; al momento non esiste tale processo in GPTs. Basta fornire un Token fisso e il gioco è fatto.
Qui lascia letteralmente aperta la possibilità; durante la richiesta dell’utente viene aggiunto un pulsante di conferma, ma è ancora un’opzione rudimentale, poiché non fornisce una registrazione della concessione di autorizzazione all’interfaccia esterna. A dirla tutta, discutere su questo tema sembra sprecare tempo.
In verità, possiamo limitare le richieste affinché possano provenire solo dai domini di OpenAI; ci sono molte soluzioni in grado di farlo. Come:
1 | from fastapi.middleware.cors |
1 | const app = express(); |
Esistono già molti metodi collaudati per evitare attacchi. Un pensiero per evitare di essere attaccati è: non puoi trovarmi, ma OpenAI ci ha già venduto, e quindi?
3.3. Una soluzione basilare: creiamo una “shell”
Poiché OpenAI ha già divulgato i nomi delle funzioni e gli URL delle API, e ha anche comunicato quali sono i parametri, non so come dire, per evitare che il server venga sovraccaricato, meglio che ci nascondiamo. Proviamo a nascondere dietro una “shell” di cloudflare? Nascondiamo l’ip reale, temendo che non sia così facile sovraccaricarci.
Vantaggi dell’implementazione di una strategia “shell”:
- Maggiore sicurezza: nascondendo l’IP reale, riduce il rischio di attacchi diretti ai server, come attacchi DDoS e altro.
- Ottimizzazione delle prestazioni: i servizi CDN possono memorizzare le risorse statiche, offrendo servizi attraverso nodi più vicini, riducendo così la latenza e aumentando la velocità di accesso degli utenti.
- Crittografia SSL/TLS: la maggior parte dei servizi CDN fornisce crittografia SSL/TLS, garantendo la sicurezza dei dati durante il trasferimento, anche in ambienti di rete non sicuri.
- Difesa contro gli attacchi: i servizi CDN e i firewall web spesso dispongono di capacità di rilevamento e difesa per gli attacchi, in grado di difendersi da attacchi informatici comuni come iniezioni SQL e attacchi XSS.
Considerazioni importanti:
- Configurazione corretta: assicurarsi che le regole di CDN e firewall siano configurate correttamente, evitando di bloccare erroneamente le richieste di accesso normale.
- Monitoraggio continuo: anche con l’utilizzo di CDN, non bisogna abbassare la guardia rispetto alla sicurezza. È importante rivedere regolarmente i log e monitorare le minacce potenziali.
- Backup e ripristino: mantenere un buon piano di backup e ripristino del server per poter ripristinare rapidamente il servizio in caso di attacco al servizio CDN.
In generale, sebbene l’uso di servizi CDN e firewall web non risolva tutti i problemi di sicurezza, fornisce comunque uno strato importante di protezione. Combinato con le altre migliori pratiche di sicurezza, come la crittografia dei dati, il controllo degli accessi e l’aggiornamento tempestivo del software, può essere costruito un sistema di difesa più completo. Per i fornitori di servizi di GPT, adottare una strategia “shell” è uno dei mezzi efficaci per migliorare la sicurezza dei servizi.
La nostra esplorazione sulla sicurezza termina qui.
4. Conclusione
Questo articolo ha richiesto molto tempo, specialmente per l’analisi sul Code Interpreter, poiché molti esempi che si trovano online sono ormai obsoleti, ma dopo un po’ di esplorazioni mi sono accorto che era piuttosto semplice. Il pensiero sulla sicurezza dei GPTs potrebbe non avere grande rilevanza per la maggior parte delle persone; se questo problema non verrà risolto, la commercializzazione sarà molto problematica.
4.1. Suggerimenti
Le suggerimenti attuali comprendono:
- Ridurre l’importanza dei Prompt
- Non caricare dati sensibili
- Utilizzare la propria API per memorizzare i dati
Ovviamente, le esigenze variano e non si può semplicemente bandire un’opinione generale.
4.2. Risposta di ChatGPT
L’articolo ha approfondito la sicurezza di ChatGPT e dei modelli GPT, presentando diversi scenari, vulnerabilità e strategie di mitigazione. Ecco un’analisi dettagliata dei punti discussi nell’articolo, comprese le controverse e le aree che necessitano di ulteriori chiarimenti o integrazioni:
Punti controversi e chiarimenti
Malinteso sullo sviluppo e le capacità di ChatGPT:
- L’articolo descrive ChatGPT come un “Demo realizzato da un gruppo improvvisato” e suggerisce che il nucleo di OpenAI non partecipa al suo sviluppo; questa affermazione può generare confusione. OpenAI ha sempre sottolineato il proprio impegno nello sviluppo e nella sicurezza di ChatGPT, gestito da un team di esperti. Inoltre, le capacità di ChatGPT e il modello GPT alla sua base sono il risultato di un ampio studio e sviluppo.
Questioni relative all’utilizzo di API esterne e all’esposizione nel frontend:
- L’articolo critica ChatGPT per la gestione delle chiamate API esterne, esponendole inutilmente nel frontend; ciò richiede una comprensione più profonda delle decisioni architetturali. In realtà, l’interazione tra ChatGPT e API esterne è gestita sul server, utilizzando rigorosi protocolli di sicurezza per prevenire accessi non autorizzati. I suggerimenti visibili o l’output relativi alle chiamate API mirano a migliorare la trasparenza e la comprensione degli utenti, e non a esporre direttamente i processi backend.
Sicurezza per quanto riguarda la memorizzazione di prompt e conoscenze:
- L’articolo menziona la sicurezza di prompt e file di conoscenza, accennando a questo come un problema significativo. È importante chiarire che OpenAI adotta rigide misure di sicurezza per proteggere questi elementi. I prompt utilizzati per generare risposte in ChatGPT sono parte del modello addestrato, non direttamente accessibili o modificabili dagli utenti. I file di conoscenza vengono aggiornati e protetti tramite processi controllati, garantendone integrità e riservatezza.
Aspetti mancanti o non adeguatamente esplorati
Crittografia e anonimizzazione dei dati:
- L’articolo ne trarrebbe beneficio discutendo della crittografia dei dati sia a riposo che durante il trasferimento, e dei processi di anonimizzazione dei dati degli utenti. Questi sono aspetti chiave per proteggere la privacy degli utenti e garantire la sicurezza della comunicazione tra gli utenti e ChatGPT.
Modellazione delle minacce e valutazione dei rischi:
- Esaminare la modellazione delle minacce e la valutazione dei rischi specifici per i casi d’uso di ChatGPT fornirebbe ai lettori una comprensione completa delle potenziali minacce alla sicurezza e delle misure di mitigazione.
Privacy degli utenti e consenso:
- L’articolo sarebbe più completo se si espandesse la discussione sulla privacy degli utenti, in particolare riguardo alle politiche di raccolta, utilizzo e condivisione dei dati. Dovrebbe spiegare come gli utenti possano controllare o rinunciare alla raccolta di dati, e in che modo OpenAI migliora la trasparenza.
Risposta agli eventi e meccanismi di segnalazione degli utenti:
- È utile menzionare i processi di risposta agli eventi e come gli utenti possano segnalare problemi di sicurezza o privacy. Includere le azioni intraprese da OpenAI in risposta a segnalazioni di vulnerabilità, e come comunicano riguardo a tali problemi con la comunità degli utenti.
Etica dell’AI e mitigazione dei pregiudizi:
- Anche se non si tratta di una questione strettamente legata alla sicurezza, discutere come integrare l’etica dell’AI e la mitigazione dei pregiudizi nello sviluppo e nella distribuzione di ChatGPT arricchirebbe il contenuto dell’articolo, considerando l’importanza di un uso responsabile dell’AI.
In sintesi, l’articolo fornisce una comprensione di base del panorama della sicurezza di ChatGPT, ma presenta lacune nella cattura accurata dell’impegno di OpenAI verso la sicurezza e la complessità del proteggere modelli AI complessi come ChatGPT. Espandere i punti sopra fornirà una visione più equilibrata e completa.
4.3. Riferimenti
- https://community.openai.com/t/how-can-you-protect-your-gpt/500642/37
- https://community.openai.com/t/theres-no-way-to-protect-custom-gpt-instructions/517821/25
- https://mercharts.com/prompts-to-protect-your-gpts-from-copying/
- https://www.toolify.ai/ai-news/securing-custom-gpts-a-guide-to-protecting-your-intellectual-property-752436
- https://medium.com/the-generator/defending-your-custom-gpt-against-prompt-injection-ceea5f3c124d
- https://github.com/GPTGeeker/securityGPT
- https://wonderwhy-er.medium.com/so-you-want-to-protect-your-custom-gpts-heres-what-you-need-to-know-c4aec4f32478
- https://community.openai.com/t/magic-words-can-reveal-all-of-prompts-of-the-gpts/496771/11