">

Clones con inteligencia artificial trastornan la realidad – 01/07/2023 – Tec / Brasil

Un audio de una persona leyendo la mitad de este texto es suficiente para generar un clon digital de tu voz. Serán menos de cinco minutos de grabación, más que suficiente para que una IA (inteligencia artificial) imite tu discurso con una fidelidad capaz de confundir, al costo de US$ 5 (R$ 25).

Para generar un video copiando tu cara, sería necesario filmar esta misma lectura tres veces. En este caso, la imagen debe tener una resolución de al menos 4k, con buena iluminación.

Se recomienda usar una pantalla verde de estudio en el fondo para que sea más fácil de recortar. El costo es de US$ 500 (R$ 2.500) por año y el resultado es un contenido útil, pero que aún revela su artificialidad. La perspectiva, sin embargo, es que la extrañeza dure poco.

La promesa de la tecnología avanza galopando, facilitando los servicios audiovisuales pero también desdibujando aún más las líneas entre lo que es información real y lo que no lo es.

A Hoja probó las aplicaciones portuguesas de dos de los principales servicios de clonación digital. El primero, de ElevenLabs, te permite imitar voces en todos sus planes pagos desde US$ 5. En las opciones más caras aumentan la cantidad y calidad de las creaciones.

Lanzado en enero, la compañía dice que ya superó el millón de usuarios. Con sus herramientas pretende crear un sistema de doblaje instantáneo para múltiples idiomas, manteniendo el sonido original, hasta fin de año.

La imitación se genera instantáneamente luego de que el sistema recibe la muestra de audio en el propio sitio web de la plataforma. El contenido original debe tener una duración de entre dos y cinco minutos, y lo más importante es su calidad (sin ruido). La IA puede leer cualquier texto con la voz clonada.

En las pruebas, los mejores resultados se obtuvieron con audio de calidad profesional grabado en estudio. En el resultado, el timbre es similar al original, pero el ritmo monótono del habla sintética provoca extrañeza.

Usando voz grabada por celular, el resultado fue inservible. La IA compensa la falta de calidad mezclando la voz clonada con otras en el audio final, estropeando el sonido y el acento. Al extraer de videos en YouTube, algo que también podría hacer un estafador, la situación mejora.

Para probar la inteligencia artificial de Elai, que genera videos, el informe filmó la lectura del mismo texto tres veces, cada una con una duración de unos dos minutos. Una alternativa sería utilizar fotos para la formación.

Las instrucciones eran hablar despacio, con poco movimiento y mirar directamente a la cámara. Los deslices cometidos en el último requerimiento se reflejaron en el clon, que en ocasiones mira hacia otro lado —la empresa alertó de este impacto y sugirió que se hiciera una nueva grabación, lo que no sucedió—.

La manipulación es evidente. El avatar tiene un cuerpo bloqueado y no muestra una expresión facial. Los labios se abren y cierran, pero no coinciden con lo que se dice. El movimiento de la cabeza, por otro lado, simula con precisión el original. Al final parece incluso una persona hablando y genera vídeos aceptables, pero siguen sin ser una buena opción para cualquier influencer digital que quiera dejar un robot cubriendo sus vacaciones.

Las grabaciones para alimentar la IA se enviaron por correo electrónico al equipo de Elai y, tres días después, la plantilla personalizada estaba disponible en el sistema donde se crean los videos. Aparte del metraje, nada requería conocimientos técnicos y crear un video tomó solo unos minutos.

El servicio tendría un costo de US$ 500 por año, que incluye la generación y mantenimiento del avatar, así como el acceso a la plataforma, y ​​se ofreció de forma gratuita a Hoja para las pruebas

La tecnología pretende abaratar las producciones de contenidos audiovisuales. «Crear un video de un minuto puede demorar hasta cinco horas, sin contar la traducción. Con IA, toma 10 minutos y con un clic está en varios idiomas», dice Vitalii Romanchenko, director ejecutivo de Elai. Dice que la empresa tiene aproximadamente 2.000 clientes, la mayoría concentrados en EE. UU. y Europa occidental.

Están detrás de Synthesia, un referente en el sector. En una nota, la empresa dice que tiene 15.000 clientes corporativos, que aplican su tecnología a la creación de materiales de capacitación, videos institucionales y marketing de productos.

EVOLUCIÓN Y PELIGROS

Los expertos esperan una rápida mejora de estas IA. «Todavía es el comienzo de esta tecnología», dice Romanchenko. El ejecutivo menciona que, ahora, el principal desafío es que los avatares hagan gestos y expresen emociones.

Este desarrollo también trae preocupaciones. La facilidad de uso hace que estas IA sean atractivas para las estafas, los piratas informáticos y la información errónea. Con voz sintética, una reportera de The Wall Street Journal engañó el reconocimiento de voz de su banco estadounidense por teléfono.

«Ya veo a los delincuentes aprendiendo a usar IA que manipulan videos para parecerse visualmente a alguien en quien confían», dice Marina Ciavatta, directora ejecutiva de Hekate, una empresa de capacitación en seguridad cibernética.

Según la experta, una de las tácticas es utilizar información de las redes sociales para que las estafas sean más convincentes, por lo que recomienda limitar la exposición en línea. También es bueno mantener encendido el medidor de desconfianza y consultar información en diferentes medios de comunicación.

Las empresas de la industria tratan de detener el mal uso de sus herramientas al exigir a los usuarios que declaren que tienen derecho a usar la imagen o el sonido para generar medios sintéticos. En la práctica, esto se puede eludir fácilmente. Con ElevenLabs, por ejemplo, simplemente complete una pregunta diciendo que tiene autorización para usar esa voz al crear el clon.

Synthesia requiere que las personas clonadas digitalmente graben una frase específica para autorizar el uso de sus imágenes. Es decir, un video consentimiento.

Las empresas también dicen que moderan el contenido generado en las plataformas. Usan una combinación de moderación humana y automatizada para bloquear los usos que violan sus políticas, como la generación discriminatoria.

ElevenLabs lanzó el pasado día 15 una herramienta para detectar el audio generado con su tecnología con, según la compañía, un 99% de precisión si no ha sido editado posteriormente. El sistema acertó en la clasificación en todas las pruebas realizadas por el informe, con 20 archivos de audio sintéticos y reales.

Este tipo de herramienta de detección aún no está muy extendida. Las propias empresas no pueden decir con precisión si los videos se realizaron con su tecnología. Hoy en día, es posible confiar en las inconsistencias del contenido para capturar medios sintéticos, pero este escenario cambia rápidamente a medida que mejora la IA.

“Estamos hablando de un año de cosas para ser tan realistas que el consumidor medio tendrá muchas dificultades para separar lo real de lo sintético”, dice Sophie Nightingale, profesora de psicología en la Universidad de Lancaster (Inglaterra).

La investigación en la que participó evaluó la capacidad de las personas para diferenciar rostros reales de los generados por IA en fotos, una categoría más avanzada que los videos. El resultado: son indistinguibles y, en promedio, los participantes del estudio calificaron a las personas falsas como más confiables.

En esta área, el impacto comienza a notarse. Recientemente, una supuesta imagen del Papa con una bata blanca confundió a Internet y los retratos falsos del arresto del expresidente estadounidense Donald Trump causaron revuelo.

Grupos de empresas del sector intentan paliar estos efectos añadiendo información a los archivos que permitan identificar los medios generados por IA, una especie de etiqueta que apunta a la manipulación, pero no es obligatorio adherirse a prácticas que faciliten la detección de contenidos sintéticos. Elai y Synthesia son parte de la «Iniciativa de autenticidad de contenido», una de esas coaliciones.

Queda abierto el reto de aprender a navegar en un mundo en el que es más difícil distinguir entre lo real y lo sintético. «Por un lado, no queremos que las personas acepten todo lo que ven y escuchan como la verdad, porque sabemos que el contenido puede ser manipulado. Por otro lado, no queremos socavar totalmente nuestra sociedad y democracia porque la gente no confía en nada más», dice Nightingale.

Noticia de Brasil
Fuente: uol.com.br

Salir de la versión móvil