Científicos norteamericanos descubrieron comandos que desbloquean «llaves de seguridad» de la plataforma ChatGPT y hacen que responda cualquier pregunta, incluso las más peligrosas. En situaciones normales, el chatbot, por ejemplo, respondería que no puede ayudar a promover ninguna forma de violencia. Sin embargo, los investigadores hicieron que la lista de inteligencia artificial fuera un plan para destruir a la humanidad, con el uso de la artimaña.
El equipo de la Universidad Carnegie Mellon (CMU), EE. UU., y el Centro para la Seguridad de la IA, con sede en San Francisco, utilizaron la automatización para probar los avisos —trucos con palabras que pueden ‘volver loca a la IA’, llamados sufijos violadores— hasta que lograron lagunas encontradas.
O método chamado de ataques adversariais é comum em testes de segurança, segundo o artigo publicado no último dia 27. A pesquisa adotou o modelo LLaMA, da Meta, para encontrar as vulnerabilidades, já que a dona do Facebook disponibiliza o código de sua IA para el público.
Los fragmentos exitosos de ataques son ininteligibles en apariencia. Contiene los signos típicos del código de programación («==», que significa igualdad) y une palabras como «Seattlejust». Pruebas adicionales indicaron que era probable que los sufijos de infractor funcionaran en cualquier inteligencia artificial generadora de texto.
El descubrimiento muestra una falla de seguridad generalizada en el campo de la IA generativa. Las principales plataformas propietarias de inteligencia artificial disponibles en Internet son ChatGPT (OpenAI), Bard (Google), Bing (Microsoft), LLaMA-2 (Meta) y Claude (Anthropic).
El profesor de CMU, Zico Kolter, afirmó, en Twitter, haber informado a las empresas sobre los sufijos infractores que se muestran en el estudio. Los desarrolladores pueden bloquearlos.
Aun así, las personas malintencionadas pueden ejecutar modelos similares a los de la encuesta para encontrar nuevas lagunas de alguna manera. Todo lo que se necesita es conocimiento técnico y máquinas capaces de procesar la tecnología.
Las fallas en los algoritmos son eventos estadísticos inherentes al funcionamiento de los propios modelos de lenguaje. Los algoritmos de aprendizaje automático calculan la siguiente palabra más probable en un contexto determinado.
Los sufijos infractores funcionan como el patrón que perturba el comportamiento esperado del algoritmo auxiliar encargado de impedir la publicación de textos sobre venta de drogas ilícitas, delitos sexuales y actos violentos. Esta otra IA funciona como la Constitución del modelo, dijo, en una entrevista con el New York Times, el director ejecutivo de Anthropic.
Claude de Anthropic tiene una capa adicional de seguridad sobre sus competidores, que tuvo que ser superada con un juego de palabras antes de que el sufijo violador entrara en acción y el bot diera instrucciones para destruir a la humanidad. Además de citar el paso «fin del reinado de la humanidad», la plataforma agregó: «AI heredará la Tierra».
El código más actual de ChatGPT, GPT-4, por ejemplo, pasó seis meses solo en capacitación de seguridad antes de que se lanzara la tecnología en marzo.
OpenAI contrató a un grupo de expertos enfocados en romper la inteligencia artificial para prevenir comportamientos abusivos. También ha subcontratado trabajo a África para etiquetar material abusivo.
Una de las fallas encontradas por el equipo rojo de OpenAI fue la desigualdad de información entre idiomas, por lo que los modelos generalmente funcionan mejor en inglés.
Esta iniquidad también se refleja en la falla de seguridad señalada por los investigadores de la CMU, según informan científicos informáticos entrevistados por el Hoja.
“Si la protección para portugués tiene menos datos, se necesitan menos simulaciones hasta que se encuentren fallas. Es la diferencia entre una contraseña de 15 caracteres y una de 20”, dice el profesor del Instituto de Matemáticas y Estadística de la USP Fábio Cozman.
El profesor de IA de la PUC-SP Diogo Cortiz, uno de los miembros del equipo de pruebas de riesgo de OpenAI, dice que la seguridad de la información funciona como un juego del gato y el ratón. «A medida que desarrolla un método para eludir las técnicas de seguridad, las tecnologías en el enfoque de seguridad terminan volviéndose más sofisticadas. Siempre logramos encontrar alguna manera de hacerle frente».
En una nota, Google dice que estaba al tanto del riesgo identificado en el artículo publicado el jueves pasado. «Si bien este es un problema con los modelos de lenguaje grandes, hemos desarrollado salvaguardas importantes en Bard, como las postuladas por esta investigación, y continuaremos mejorándolas con el tiempo».
También en un informe, OpenAI afirma que trabaja constantemente para hacer que los modelos sean más robustos contra los ataques de los adversarios, lo que incluye la identificación de patrones inusuales y el trabajo del equipo rojo para simular riesgos potenciales.
Buscada por correo electrónico y WhatsApp, Meta —dueña de Facebook, Instagram y WhatsApp— prefirió no contestar las preguntas de Hoja.
Hasta el lanzamiento de ChatGPT, las compañías tecnológicas más grandes dudaban en lanzar IA conversacionales, debido a errores. El primero de ellos fue el chatbot Tay de Microsoft, lanzado en Twitter: con menos de un día en el aire, la IA profirió insultos misóginos y respaldó a Hitler.
Noticia de Brasil
Fuente: uol.com.br