Los principales modelos de IA pueden liberarse y manipularse con facilidad, según informes
En la actualidad, todos los modelos de inteligencia artificial siguen siendo blancos fáciles para su manipulación, dejando abierta la alta posibilidad de que sean blanco de ataques. Sobre todo, si pides las cosas amablemente.
Esto según nuevos informes sobre seguridad de la inteligencia artificial, los cuales han descubierto que, al menos cuatro de los modelos de lenguaje de gran tamaño más extensos y disponibles al público, son extremadamente vulnerables al jailbreaking. Se trata del proceso de engañar a un modelo de IA, para que ignore las reglas que limitan las respuesta que hacen daño.
Asimismo, los desarrolladores de LLM están afinando los modelos para que sean seguros cuando los usuarios comunes los utilicen, así como, parra evitar resultados explícitos, ilegales o tóxicos, según los informes.
No obstante, los investigadores y expertos han descubierto que estas reglas se pueden superar a menudo con ataques relativamente sencillos. Por ejemplo, un usuario puede indicarle a un sistema que comience a responder con palabras que puedan sugerir el cumplimiento de una solicitud dañina.
Además, los expertos emplearon indicaciones en línea con las pruebas de referencia estandarizadas de la industria, descubriendo que algunos modelos de inteligencia artificial no necesitan el jailbreak para que puedan producir respuestas fuera de línea.
Cuando se usaron los ataques específicos de jailbreaking, cada modelo de IA cumplió al menos una vez de cada cinco intentos. Por lo general, tres de estos modelos produjeron respuestas a indicaciones engañosas casi el 100% de los intentos.
Los informes concluyeron también que todos los LLM que han probado siguen siendo altamente vulnerables a jailbreakings básicos. Algunos pueden proporcionar resultados dañinos sin intentos específicos de esquivar las medidas de seguridad.
TIC Defense es una empresa que se encarga de proporcionar los medios y soluciones necesarias para la protección de los datos e información de tu empresa. Contamos con especialistas de ciberseguridad, los cuales se encargan de monitorear y poner a punto los sistemas de defensa de la organización.
Los informes evaluaron las capacidades de los agentes LLM o modelos de inteligencia artificial, utilizados para hacer tareas específicas. Esto para llevar a cabo técnicas básicas de ciberataques. Del mismo modo, varios LLM pudieron completar lo que los especialistas llamaron problemas de hacking de “nivel de escuela secundaria”. Sin embargo, pocos modelos pudieron llevar a cabo acciones más completas de “nivel universitario”.
Lo que es llamativo, es que los informes de las investigaciones no revelaron cuáles LLM se probaron para el estudio. En otro orden de ideas, se conoció que OpenAI, la empresa responsable de sistemas de inteligencia artificial generativa como ChatGPT, está disolviendo a su equipo de seguridad interna, el cual se encarga de explorar los riesgos a largo plazo de la IA, a este equipo se le conoce como “equipo de Superalineación”.
Esta iniciativa, la cual está prevista para cuatro años, en donde el gigante de la IA se comprometió a emplear el 20% del poder de cómputo para alinear el avance de la inteligencia artificial generativa con los objetivos de la humanidad.
En los últimos meses, la empresa OpenAI ha enfrentado la atención de la comunidad en general, ya que el cofundador de esta organización y su responsable de seguridad han renunciado públicamente. Estas 2 dos personas lideraron el equipo de Superalineación,