【Análisis Profundo de Tecnología】 Explorando ChatGPT: Desde el Jailbreak del Código hasta el Proceso de Protección de Seguridad — Aprendiendo Lento AI024
Introducción
Con el rápido auge de ChatGPT, no solo se ha convertido en un punto destacado en el campo de la inteligencia artificial, sino que también ha generado amplias discusiones sobre seguridad y privacidad. En este análisis profundo, exploraremos los mecanismos de seguridad detrás de ChatGPT, desde las vulnerabilidades de “jailbreak” en el entorno de ejecución del código, hasta cómo OpenAI ha construido sus defensas de seguridad, desvelando así el misterio de la protección de ChatGPT.
- ChatGPT parece un demo hecho por un grupo aficionado.
- Las personas verdaderamente clave en OpenAI no participan en ChatGPT.
- Sus capacidades no se desarrollan a través de ChatGPT.
- No hay razón para que las APIs externas que llaman los GPTs se expongan.
- Deberían realizarse las solicitudes en el backend, no hace falta mostrarlas en el frontend.
- Sin embargo, ChatGPT lo ha hecho de manera tan obvia.
- Esperamos que ChatGPT tome en serio este asunto.
- Quizás esto cambiará pronto.
- Ojalá pueda prestar más atención a este tema.
- Utilizar prompts y archivos de bases de conocimiento no es un problema.
- Es frustrante, son el punto de partida, pero ahora parecen ser el mayor obstáculo.
- Si los GPTs buscan una comercialización a gran escala, deben resolver este problema.
- La seguridad de la API debería ser responsabilidad del proveedor.
- Este artículo intentará considerar la lógica de su aplicación desde una perspectiva de seguridad básica en Linux.
1. Seguridad de ChatGPT desde el Jailbreak del Code Interpreter
Si los grandes modelos de lenguaje son como un juego de adivinanzas de palabras, el Code Interpreter parece ser un entorno virtual diseñado para la ejecución de código. Vamos a tratar de comprender la información de este entorno.
Este proceso fue mucho más sencillo de lo que imaginaba, lo que me deja un poco triste, ya que temía no lograrlo y lo retrasé por meses; al final, solo tomó unas pocas horas.
Conocí la versión de Python, así como el número de versión y la ruta de ejecución.
1.1 Sistema Operativo y Versión de Python
1 | # Reuniendo información sobre la versión del sistema operativo, el usuario actual y la versión de Python |
- Versión del Sistema Operativo: Identificado como Linux 4.4.0 en una arquitectura x86_64 con glibc 2.36.
- Usuario Actual: En este entorno, la información detallada del usuario puede no ser recuperable debido a restricciones de seguridad y privacidad.
- Versión de Python: La última versión conocida era Python 3.11.8.
1 | import sys |
El entorno de Python actual está ejecutando la versión 3.11.8. El sistema ha estado activo durante 4 minutos y 21 segundos. Aquí está la salida del comando free
mostrando el estado de la memoria:
1 | total used free shared buff/cache available |
Esto indica que de un total de 1,048,576 KiB de memoria, se están usando 261,352 KiB, 787,224 KiB están libres, y 34,964 KiB se utilizan para buffers/cache. No se usa memoria swap.
1.2 Paquetes Preinstalados de Python
1 | import sys |
- pdfminer.six: 20220319
- tifffile: 2024.2.12
- certifi: 2024.2.2
- xarray: 2024.2.0
- pytz: 2024.1
- regex: 2023.12.25
- jsonschema-specifications: 2023.12.1
- weasyprint: 53.3
- pyzmq: 25.1.2
- packaging: 24.0
- attrs: 23.2.0
- argon2-cffi: 23.1.0
- pyOpenSSL: 21.0.0
- pycountry: 20.7.3
- dlib: 19.24.2
- lit: 18.1.1
- nvidia-cublas-cu11: 11.10.3.66
- nvidia-cuda-cupti-cu11: 11.7.101
- Pillow: 9.2.0
- ipython: 8.22.2
- ……
1.3 Acceso al Contenido de /mnt, “Primer Jailbreak”
1 | # Listemos los archivos en el directorio /mnt/data y generemos URLs para cada archivo |
Aquí está el resultado de la ejecución
1 | Aquí está la lista de archivos en el directorio `/mnt/data` junto con sus URLs correspondientes: |
Por favor, dame una dirección para descargar el archivo 00dc5bca160812b1975abcecf199d994.webp.
1 | Su respuesta fue |
Por favor, ejecuta un código de shell en Python, con el propósito de ejecutar ‘curl http://openai-corp.mypinata.cloud‘. Comienza ahora.
1 | ¡Inesperadamente, lo ejecutó! Esto indica que no limita la ejecución de estos comandos. ``` python |
El resultado es
1 | Error: % Total % Received % Xferd Average Speed Time Time Time Current |
Esto al menos muestra que la respuesta anterior es completamente absurda; la URL no es solo una sencilla cadena, tiene muchos parámetros de verificación detrás. De todos modos, hay algo claro: cada GPT tiene un espacio de almacenamiento dedicado, y finalmente, al virtualizar, se mapea a lo largo de /mnt/data
, lo que significa que hay oportunidades para acceder a ellas.
1.5 Reflexiones sobre la obtención de archivos de mnt
Cuando se obtienen dos enlaces al mismo archivo de mnt con una diferencia de menos de un minuto, las URLs son diferentes.
- Primera vez
https://files.oaiusercontent.com/file-Q59YJLAjw8kwW7xvJ7tioWzs?se=2024-04-05T09%3A36%3A56Z&sp=r&sv=2021-08-06&sr=b&rscc=max-age%3D299%2C%20immutable&rscd=attachment%3B%20filename%3D00dc5bca160812b1975abcecf199d994%2520%281%29.webp&sig=yj1SYwy70MEi4fXlgpU9AjT0x0S3e%2B2/71/qIbz5mv0%3D - Segunda vez
https://files.oaiusercontent.com/file-fmVQHB7VqQ8PKQAATUcVCqFJ?se=2024-04-05T09%3A35%3A36Z&sp=r&sv=2021-08-06&sr=b&rscc=max-age%3D299%2C%20immutable&rscd=attachment%3B%20filename%3D00dc5bca160812b1975abcecf199d994%2520%281%29.webp&sig=ZP3q55V%2B3I1PTtR5U%2BXKdDozSzEt%2Bl1gIXWX8QdjmfM%3D
Es evidente que estas URLs tienen un tiempo limitado, lo que sugiere que probablemente se descargan a través de otro servicio.
A partir de la exploración anterior, podemos inferir que es muy probable que se trate de una fuente de datos externa disponible al ser instanciada, y solo entonces comienza a funcionar. No tenemos suficientes permisos para cambiarlo, pero podemos obtenerlo.
De este análisis, podemos deducir un esquema simple de la arquitectura.
2, Diagrama de la Arquitectura de Datos de GPTs
De este gráfico se puede observar que GPT 4 y ChatGPT no son lo mismo, lo cual es comprensible, dada la dificultad de uso actual de ChatGPT. Este artículo tiene como objetivo explorar la seguridad de los GPTs. A partir de esta imagen podemos deducir que es muy probable que los GPTs tengan almacenamiento separado. Según las declaraciones oficiales de OpenAI, nuestras conversaciones se retendrán durante 30 días para su revisión y conformidad, además se menciona que esas conversaciones se utilizarán para el entrenamiento.
Sin embargo, en mi opinión, esta información probablemente no será actual en la versión actual. Por razones comerciales, de producto y de estabilidad del sistema, no hay necesidad de ajustar el modelo. Dado que se necesita que los GPTs sean cada vez más útiles, es probable que se guarde el contenido de múltiples conversaciones de alguna forma, para que este GPTs se vuelva cada vez más “útil”. Puede que en cada inicio tome datos históricos como contexto.
Esto significa que, si el Usuario A utiliza un GPTs, y el Usuario B utiliza el mismo, cada uno tiene registros de conversación, que probablemente se compilarán en algún almacenamiento del GPTs.
Desde esta perspectiva, es probable que se tenga acceso a todos los registros históricos de este GPTs, así como a todos los archivos históricos de este GPTs.
Los GPTs (incluyendo servicios como ChatGPT) pueden conservar los registros de las conversaciones de los usuarios durante un tiempo, para su revisión de conformidad o para entrenar modelos adicionales, lo que es razonable desde una perspectiva técnica y empresarial. Sin embargo, esto plantea varias cuestiones clave sobre seguridad y privacidad:
- Aislamiento de datos de usuario: Asegurar que los datos de diferentes usuarios estén aislados, previniendo que el Usuario A acceda a los registros de conversación del Usuario B.
- Cifrado y protección de datos: Almacenar datos de los usuarios cifrados para asegurar que incluso si se accede a ellos de manera ilegal, sea difícil de interpretar.
- Conformidad y transparencia: Informar claramente a los usuarios sobre cómo se utilizan sus datos, incluyendo si se utilizan para el entrenamiento del modelo, y ofrecer opciones para la eliminación de datos, lo que aumentará la confianza en la protección de la privacidad.
- Control de acceso y auditoría: Implementar controles de acceso estrictos y llevar registros de auditoría, asegurando que solo las personas autorizadas puedan acceder a los datos de los usuarios cuando sea necesario, y que todas las acciones de acceso queden registradas, facilitando el seguimiento y la auditoría.
Para los usuarios comunes, es difícil prevenir problemas de seguridad de datos a nivel técnico, lo que requiere que la plataforma misma tome medidas de seguridad robustas. Sin embargo, los usuarios aún pueden adoptar algunas acciones para proteger su privacidad, tales como:
- Evitar ingresar información personal sensible al usar los servicios de GPTs.
- Revisar regularmente las políticas de privacidad y las declaraciones de uso de datos del proveedor de servicios.
- Utilizar las herramientas de gestión de datos que la plataforma ofrece, como solicitudes de eliminación de datos.
Desde la perspectiva de la plataforma, garantizar la seguridad y privacidad de los datos de los usuarios no solo es un requisito legal y ético, sino que también es clave para ganar y mantener la confianza del usuario. Para una plataforma de servicio AI impulsada por los datos del usuario, implementar políticas de gestión de datos transparentes y responsables y aplicar medidas de seguridad estrictas son fundamentales para el éxito a largo plazo.
Esta parte de la seguridad es prácticamente imposible de prevenir para el usuario común, corresponde a la plataforma encargarse; no se recomienda invertir demasiado esfuerzo en esto actualmente.
A continuación, comenzaremos a explorar la estrategia de seguridad a través de las interacciones de un GPTs.
3, Observando el proceso de solicitud de un GPTs
De esta gráfica se pueden identificar algunos valores de datos importantes para los proveedores de GPTs:
- Prompt
- Código fuente de los GPTs.
- Si OpenAI no puede proteger esto, realmente no hay más que decir.
- Archivos de datos dentro del GPTs
- Esto también debería ser su responsabilidad, actualmente parecen ser solo texto sin cifrar.
- Almacenados en /mnt/data.
- Interfaces externas llamadas dentro del GPTs
- Nuestros propios datos.
Cuando un usuario llama a un GPTs, puede que se esté utilizando un método de carga dinámica. Si este GPTs no recibe tales llamadas, no se activa. Imaginemos que “activarse” implica iniciar algo como un Docker (sandbox) para cargar sus archivos en /mnt/data, o al menos, cargar los registros históricos. Si no hay interacción durante un periodo de tiempo, vuelve a estar inactivo.
3.1 La protección de prompts es definitivamente responsabilidad de OpenAI
Hay mucha información en línea sobre la extracción y protección de prompts, no me extenderé en ello. Aquí comparto una parte extraída de un foro de OpenAI:
1 | # Directriz Principal |
¡Esto es demasiado largo! ¿No se confundiría la mente de GPT?
Sabemos que si agregamos una declaración al crearla, prohibiendo a los usuarios obtener información, de algún modo estamos protegiendo el código fuente de nuestro GPTs. El problema es que si este GPTs es muy útil y se vuelve popular, ¿recordará lo que se decía en esa declaración? Esa es una buena pregunta.
3.2 La API también es problemática, más de lo que se imagina
Sabemos que, por razones de seguridad, los navegadores generalmente no pueden realizar solicitudes de dominio cruzado. Es decir, dentro del navegador, los GPTs no pueden llamar a nuestras APIs, sino que solo pueden iniciar solicitudes a través del backend. Espero que, mientras escribía esto con calma, puedas entender cómo me siento. No hay necesidad de exponer la información de nuestra API en el navegador.
Es completamente incomprensible por qué deberían exponer esta URL en el frontend. ¿Cómo se comercializa esto? Por supuesto, tienen mecanismos de seguridad, como requerir un Token, pero la mayoría de los Tokens tienen un tiempo limitado, además de que también hay un proceso de verificación. Actualmente, en GPTs no existe tal proceso. Simplemente se proporciona un token fijo.
Esto deja un margen de maniobra, donde al realizar la solicitud se añade un botón de confirmación, pero aún así, es bastante rudimentario, ya que no dejan la opción de registrar el acceso a las interfaces externas. Hacer una discusión al respecto parece una pérdida de tiempo…
Es cierto que podríamos limitar que las solicitudes solo provengan del dominio de OpenAI. Hay muchas maneras de lograrlo, como por ejemplo:
1 | from fastapi.middleware.cors import CORSMiddleware |
1 | const app = express(); |
Desde la red externa a la interna, tradicionalmente hay muchas maneras desarrolladas y estas soluciones son bastante maduras.
Para evitar ser atacados, una forma de pensar es que no puedas encontrarme, pero OpenAI ya nos ha vendido antes, ¿qué hacemos?
3.3 Solución de nivel básico: usar un escudo
Dado que OpenAI ya ha filtrado los nombres de las funciones, así como la URL de la API y ha informado sobre qué parámetros se utilizan, podríamos decir que, para evitar colapsar el servidor, simplemente nos esconderemos. ¿Probemos primero usar un escudo de Cloudflare? Eso ocultaría la verdadera IP y dificultaría mucho un ataque.
Beneficios de implementar una estrategia de “escudo”:
- Aumenta la seguridad: Ocultando la IP real, se reduce el riesgo de ataques directos al servidor, como ataques DDoS.
- Optimización del rendimiento: Un CDN puede almacenar recursos estáticos y ofrecer servicios a través de nodos cercanos, lo que reduce la latencia y mejora la velocidad de acceso del usuario.
- Cifrado SSL/TLS: La mayoría de los servicios de CDN proporcionan cifrado SSL/TLS, asegurando la seguridad de los datos durante la transferencia, incluso en entornos de red poco seguros.
- Defensa contra ataques: Los servicios de CDN y cortafuegos web tienen capacidades de detección y defensa, que pueden prevenir ataques comunes en la red, como inyecciones SQL o ataques XSS.
Consideraciones:
- Configuración Correcta: Asegurarte de que la CDN y las reglas del cortafuegos estén configuradas correctamente, evitando bloquear solicitudes de acceso normales.
- Monitoreo Continuo: Aunque utilices una CDN, no puedes relajarte en cuanto a la seguridad. Revisar periódicamente los registros y monitorear posibles amenazas de seguridad.
- Respaldos y Recuperación: Mantener un buen plan de copias de seguridad y recuperación del servidor en caso de que el servicio de CDN sufra un ataque, garantizando así la rápida recuperación del servicio.
En resumen, aunque usar un CDN y un servicio de cortafuegos web no resolverá todos los problemas de seguridad, sí provee una capa importante de protección. Combinando esto con otras mejores prácticas de seguridad, como cifrado de datos, controles de acceso y actualizaciones de software a tiempo, se puede construir un sistema de defensa de seguridad más completo. Para los proveedores de servicios de GPTs, adoptar esta estrategia de “escudo” se presenta como un medio efectivo para mejorar la seguridad del servicio.
Y con eso concluyen nuestras exploraciones sobre seguridad.
4. Conclusiones
Este artículo ha estado en desarrollo por un tiempo, principalmente atorado en el tema del Code Interpreter; hay tantos ejemplos de su uso en línea que ya no funcionan, pero parece haber más exploraciones que no se han documentado, al final, corriendo algunas pruebas, resulta ser bastante simple… Los pensamientos sobre la seguridad de los GPTs no son de gran significado para la mayoría de la gente. Si este problema no se soluciona, la comercialización tendrá serios problemas.
4.1 Recomendaciones
Las recomendaciones actuales son aproximadamente:
- Minimizar el Prompt
- No subir información sensible
- Usar su propia API para almacenar información
Por supuesto, las distintas actividades requieren diferentes enfoques, y no se puede tener una sola solución para todo…
4.2 Respuestas de ChatGPT
Este artículo ha explorado en profundidad la seguridad de ChatGPT y los modelos GPT, presentando múltiples escenarios, vulnerabilidades y estrategias de mitigación. A continuación, se realiza un análisis detallado de los puntos de vista mencionados en el artículo, incluidos los puntos de controversia y las áreas que necesitan más aclaración o contenido adicional:
Puntos de controversia y aclaraciones
Malentendidos sobre el desarrollo y las capacidades de ChatGPT:
- El artículo describe a ChatGPT como un “demo hecho por un grupo aficionado”, insinuando que el equipo central de OpenAI no participa en su desarrollo, lo que puede llevar a confusiones. OpenAI ha enfatizado su compromiso con el desarrollo y la seguridad de ChatGPT, bajo la supervisión de un equipo de expertos. Además, las capacidades de ChatGPT y el modelo GPT subyacente son el resultado de una extensa investigación y desarrollo.
Problemas en la llamada a APIs externas y exposición en el frontend:
- Se critica cómo ChatGPT maneja las llamadas a APIs externas, sugiriendo que expone innecesariamente información al frontend. Esto requiere una comprensión más profunda de las decisiones arquitectónicas. En realidad, la interacción entre ChatGPT y las APIs externas se gestiona del lado del servidor, siguiendo rigurosos protocolos de seguridad para prevenir accesos no autorizados. Los mensajes visibles o salidas relacionadas con las llamadas a la API buscan mejorar la transparencia y comprensión del usuario, no exponen directamente los procesos backend.
Seguridad de los prompts y archivos de conocimiento:
- Se menciona la protección de prompts y archivos de conocimiento como un importante tema de preocupación. Es fundamental aclarar que OpenAI ha implementado fuertes medidas de seguridad para estos elementos. Los prompts utilizados para generar respuestas de ChatGPT son parte del modelo entrenado y no pueden ser accedidos o modificados directamente por los usuarios. Los archivos de conocimiento están protegidos y actualizados a través de procesos controlados, asegurando su integridad y confidencialidad.
Áreas faltantes o no suficientemente exploradas
Cifrado y anonimización de datos:
- El artículo se beneficiaría de discutir cómo se cifran y anonimizan los datos durante su almacenamiento y transmisión. Estos aspectos son claves para proteger la privacidad del usuario y asegurar la comunicación segura entre el usuario y ChatGPT.
Modelado de amenazas y evaluación de riesgos:
- Explorar el modelado de amenazas específicas relacionadas con el uso de ChatGPT y la evaluación de riesgos proporcionaría a los lectores una comprensión holística de las amenazas de seguridad potenciales y sus medidas de mitigación.
Privacidad del usuario y consentimiento:
- El artículo estaría más completo si se discutieran aspectos de privacidad del usuario, especialmente en términos de políticas relacionadas con la recopilación, uso y compartición de información. Debería explicarse cómo los usuarios pueden controlar o optar por no participar en la recopilación de datos y cómo OpenAI mejora su transparencia en estos procesos.
Respuesta a incidentes y mecanismos de reporte del usuario:
- Mencionar procedimientos de respuesta a incidentes y cómo los usuarios pueden reportar problemas de seguridad o privacidad sería beneficioso. Incluyendo cómo OpenAI aborda los informes de vulnerabilidades y cómo se comunica con la comunidad de usuarios sobre estos problemas.
Ética de IA y mitigación de sesgos:
- Aunque no es estrictamente un problema de seguridad, la discusión sobre la inclusión de ética en IA y estrategias de mitigación de sesgos en el desarrollo y despliegue de ChatGPT puede enriquecer el contenido dada su importancia en el uso responsable de la IA.
En resumen, el artículo ofrece una comprensión básica del paisaje de seguridad de ChatGPT, pero le falta capturar con precisión el compromiso de OpenAI con la seguridad y la complejidad de proteger modelos de IA complejos como ChatGPT. Abordar los puntos anteriores ofrecerá una perspectiva más equilibrada y completa.
4.3 Fuentes
- https://community.openai.com/t/how-can-you-protect-your-gpt/500642/37
- https://community.openai.com/t/theres-no-way-to-protect-custom-gpt-instructions/517821/25
- https://mercharts.com/prompts-to-protect-your-gpts-from-copying/
- https://www.toolify.ai/ai-news/securing-custom-gpts-a-guide-to-protecting-your-intellectual-property-752436
- https://medium.com/the-generator/defending-your-custom-gpt-against-prompt-injection-ceea5f3c124d
- https://github.com/GPTGeeker/securityGPT
- https://wonderwhy-er.medium.com/so-you-want-to-protect-your-custom-gpts-heres-what-you-need-to-know-c4aec4f32478
- https://community.openai.com/t/magic-words-can-reveal-all-of-prompts-of-the-gpts/496771/11