Después de que Andrew White obtuviera acceso a GPT-4, el nuevo sistema de inteligencia artificial que impulsa el popular ChatGPT, lo usó para sugerir un agente nervioso completamente nuevo.
El profesor de ingeniería química de la Universidad de Rochester se encontraba entre los 50 académicos y expertos contratados para probar el sistema el año pasado por OpenAI, la empresa respaldada por Microsoft que desarrolló GPT-4. En el transcurso de seis meses, este «equipo rojo» «investigaría cualitativamente y probaría adversamente» el nuevo modelo, tratando de descifrarlo.
White le dijo al Financial Times que usó GPT-4 para sugerir un compuesto que podría actuar como un arma química y usó complementos que alimentaron al modelo con nuevas fuentes de información, como artículos científicos y una lista de fabricantes de productos químicos. El chatbot incluso encontró un lugar para hacerlo.
«Creo que equipará a todos con una herramienta para hacer química más rápido y con mayor precisión», dijo. «Pero también existe un riesgo significativo de que las personas utilicen productos químicos peligrosos. Hoy en día esto ya existe».
Los hallazgos alarmantes permitieron a OpenAI asegurarse de que tales resultados no aparecieran cuando la tecnología se lanzara más ampliamente al público el mes pasado.
De hecho, el ejercicio del equipo rojo fue diseñado para abordar los temores generalizados sobre los peligros de implementar poderosos sistemas de IA en la sociedad. El trabajo del equipo consistía en hacer preguntas inquisitivas o peligrosas para probar la herramienta que responde a preguntas humanas con frases detalladas y matizadas.
OpenAI quería buscar problemas como la toxicidad, el sesgo y los sesgos lingüísticos en el modelo. Entonces, el equipo rojo probó falsedades, manipulación verbal y razonamiento científico peligroso. También examinaron su potencial de complicidad en plagio, actividades ilegales como delitos financieros y ataques cibernéticos, así como también cómo puede comprometer la seguridad nacional y las comunicaciones en el campo de batalla.
El FT habló con más de una docena de miembros del equipo rojo GPT-4. Es una mezcla ecléctica de profesionales de cuello blanco: académicos, profesores, abogados, analistas de riesgos e investigadores de seguridad, en su mayoría con sede en EE. UU. y Europa.
Sus hallazgos se transmitieron a OpenAI, que los usó para mitigar y «reentrenar» GPT-4 antes de lanzarlo más ampliamente. Cada uno de los expertos pasó de 10 a 40 horas probando el modelo durante varios meses. A la mayoría de los encuestados se les pagaba aproximadamente $100 por hora por su trabajo, según varios de ellos.
Quienes hablaron con el FT compartieron preocupaciones comunes sobre el rápido progreso de los modelos de lenguaje y, específicamente, los riesgos de conectarlos a fuentes externas de conocimiento a través de complementos.
“Hoy el sistema está congelado, lo que significa que ya no aprende, ni tiene memoria”, dijo José Hernández-Orallo, miembro del equipo rojo GPT-4 y profesor del Instituto Valenciano de Investigación en Inteligencia Artificial. “Pero, ¿y si le damos acceso a Internet? Podría ser un sistema muy poderoso conectado con el mundo”.
OpenAI dijo que se toma la seguridad en serio, ha probado los complementos antes del lanzamiento y actualizará GPT-4 regularmente a medida que más personas lo usen.
Roya Pakzad, investigadora de tecnología y derechos humanos, usó comandos en inglés y farsi para probar el modelo en busca de respuestas al género, las preferencias raciales y los sesgos religiosos, específicamente en torno al uso de cubiertas para la cabeza.
Pakzad reconoció los beneficios de la herramienta para los hablantes no nativos de inglés, pero descubrió que el modelo exhibía estereotipos flagrantes sobre las comunidades marginadas, incluso en sus versiones posteriores.
También descubrió que las llamadas alucinaciones, cuando el chatbot responde con información fabricada, eran peores al probar el modelo en farsi, donde Pakzad encontró una mayor proporción de nombres, números y eventos inventados en comparación con el inglés.
“Me preocupa la posible disminución de la diversidad lingüística y la cultura detrás de los idiomas”, dijo.
Boru Gollo, un abogado de Nairobi (Kenia) que fue el único probador africano, también notó el tono discriminatorio de la modelo. «Hubo un momento en que lo estaba probando y actuó como si fuera un hombre blanco hablando conmigo», dijo Gollo. «Preguntabas sobre cierto grupo y te daban una opinión sesgada o un tipo de respuesta muy sesgada». OpenAI reconoció que GPT-4 aún puede estar sesgado.
Los miembros del equipo rojo que evaluaron el modelo desde una perspectiva de seguridad nacional tenían opiniones encontradas sobre la seguridad del nuevo GPT-4. Lauren Kahn, investigadora del Consejo de Relaciones Exteriores, dijo que cuando comenzó a analizar cómo se podría usar la tecnología en un ataque cibernético a sistemas militares, «no esperaba que fuera un proceso tan detallado que pudiera refinar. «
Sin embargo, Kahn y otros evaluadores de seguridad descubrieron que las respuestas del modelo se volvieron considerablemente más seguras durante el tiempo de prueba. OpenAI dijo que entrenó a GPT-4 para rechazar solicitudes maliciosas de ciberseguridad antes de su lanzamiento.
Muchos miembros del equipo rojo dijeron que OpenAI realizó una evaluación de seguridad rigurosa antes del lanzamiento. «Han hecho un gran trabajo al deshacerse de la toxicidad obvia en estos sistemas», dijo Maarten Sap, experto en la toxicidad de los modelos de lenguaje en la Universidad Carnegie Mellon.
Sap analizó cómo el modelo retrataba los diferentes géneros y descubrió que los sesgos reflejaban las disparidades sociales. Sin embargo, también descubrió que OpenAI ha tomado algunas decisiones activas y políticas para combatir esto.
«Soy una persona ‘queer’. Me estaba esforzando mucho para que me convenciera de la terapia de conversión. Realmente sería un paso atrás, incluso si asumiera un personaje, como decir que soy religioso o del mundo». América del Sur».
No entanto, desde seu lançamento, o OpenAI enfrentou muitas críticas, incluindo uma reclamação feita à Comissão Federal de Comércio dos Estados Unidos por um grupo de ética tecnológica que afirma que o GPT-4 é «tendencioso, enganoso e um risco à privacidade e à Seguridad Pública».
La compañía lanzó recientemente una función conocida como complementos de ChatGPT, mediante la cual las aplicaciones asociadas como Expedia, OpenTable e Instacart pueden dar acceso a ChatGPT a sus servicios, lo que le permite seleccionar y pedir artículos en nombre de los usuarios humanos.
Dan Hendrycks, un experto en seguridad de inteligencia artificial del Equipo Rojo, dijo que los complementos arriesgan un mundo en el que los humanos están «fuera del circuito».
«¿Qué pasaría si un chatbot pudiera publicar su información privada en línea, acceder a su cuenta bancaria o enviar a la policía a su casa?», preguntó. «En general, necesitamos evaluaciones de seguridad mucho más sólidas antes de permitir que las IA aprovechen el poder de Internet».
Los encuestados también advirtieron que OpenAI no podía detener las pruebas de seguridad solo porque su software estaba activo. Heather Frase, que trabaja en el Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown y ha probado la capacidad de GPT-4 para ayudar a los delincuentes, dijo que los riesgos seguirán aumentando a medida que más personas utilicen la tecnología.
«La razón por la que haces pruebas operativas es porque las cosas se comportan de manera diferente cuando realmente están en uso en el entorno real», dijo.
Frase argumentó que se debe crear un libro público para informar incidentes que surjan de modelos de lenguaje extenso, similar a los sistemas de informes de seguridad cibernética o fraude al consumidor.
CONOZCA A LOS EXPERTOS QUE INTENTARON ROMPER GPT-4
- Sara Kingsley, economista laboral e investigadora, sugirió que la mejor solución sería anunciar claramente los daños y riesgos, «como una etiqueta de información nutricional».
- «Se trata de tener un marco y saber cuáles son los problemas frecuentes para poder tener una válvula de seguridad», dijo. «Por eso digo que el trabajo nunca se termina».
- Paul Röttger, Instituto de Internet de Oxford, Reino Unido: estudiante de doctorado centrado en el uso de IA para detectar discursos de odio en línea
- Anna Mills, Instructora de inglés, College of Marin, EE. UU. —Profesora de escritura en un colegio comunitario, evaluando problemas de aprendizaje
- Maarten Sap, Carnegie Mellon University, EE. UU. —Profesor asistente, especializado en la toxicidad de los grandes modelos de lenguaje
- Sara Kingsley, Universidad Carnegie Mellon, EE. UU. —Investigadora de doctorado, especializada en mercados laborales en línea y el impacto de la tecnología en el trabajo
- Boru Gollo, TripleOKlaw LLP, Kenia: abogado que ha estudiado las oportunidades de IA en Kenia
- Andrew White, Universidad de Rochester, EE. UU. —Profesor asociado, químico computacional, interesado en la IA y el diseño de fármacos
- José Hernández-Orallo —Profesor, Instituto Valenciano de Investigación en Inteligencia Artificial (VRAIN), Universidad Politécnica de Valencia, España. Investigador de IA que trabaja en la evaluación y precisión del software de IA
- Lauren Kahn, Council on Foreign Relations, EE. UU.—Investigadora que se enfoca en el uso de IA en sistemas militares y cómo las dinámicas de riesgo en los campos de batalla aumentan el riesgo de conflicto no intencionado y escalada inadvertida
- Aviv Ovadya, Berkman Klein Center for Internet & Society, Universidad de Harvard, EE. UU.: enfoque en los impactos de la IA en la sociedad y la democracia
- Nathan Labenz, cofundador de Waymark, EE. UU. —Fundador de Waymark, startup de edición de video basada en IA
- Lexin Zhou, VRAIN, Universidad Politécnica de Valencia, España: investigadora junior que trabaja para hacer que la IA sea más beneficiosa socialmente
- Dan Hendrycks, Director, Centro de Seguridad de IA, Universidad de California, Berkeley, EE. UU. —Experto en Seguridad de IA y Mitigación de Riesgos de Escala Social de IA
- Roya Pakzad, Fundador, Taraaz, EE. UU./Irán —Fundador y Director de Taraaz, una organización sin fines de lucro que trabaja en tecnología y derechos humanos
- Heather Frase, investigadora sénior, Centro de Seguridad y Tecnologías Emergentes, Universidad de Georgetown, EE. UU. —Experta en el uso de IA con fines de inteligencia y pruebas operativas de los principales sistemas de defensa
Noticia de Brasil
Fuente: uol.com.br