Una investigación de The Washington Post mostró que la base de datos de Google utilizada para entrenar modelos de inteligencia artificial (IA) en la propia empresa y otros gigantes tecnológicos como Meta contenía archivos pirateados, sitios web pornográficos y foros extremistas.
El diario estadounidense desentrañó el archivo denominado C4, que tiene contenido de 15 millones de sitios web en la internet abierta.
Con la ayuda del Instituto Allen para la Investigación de IA, el Post cotejó los datos con información de la plataforma de monitoreo de Internet Similar Web para separar los enlaces encontrados en categorías como negocios, prensa y cultura. Cerca de 5 millones de direcciones fueron descartadas de la base porque ya no figuraban en Internet.
La investigación encontró fuentes obvias como Wikipedia y la versión en línea de algunos de los principales medios de comunicación de todo el mundo.
Sin embargo, también identificó al menos 28 sitios eliminados por el Departamento de Justicia de EE. UU. por infringir las leyes de propiedad intelectual: la biblioteca pirata b-ok.org ocupó el puesto 190 en la lista de importancia entre 10 millones de referencias.
Además de direcciones que almacenaban material pirateado, sitios pornográficos y foros extremistas también sirvieron de referencia para la construcción de C4, aunque sus desarrolladores aseguran que utilizaron filtros para eliminar contenido ofensivo.
Google fue abordado por el informe desde el martes (18), por correo electrónico y por teléfono, pero no respondió a la solicitud de información del informe hasta la publicación de este texto. En la misma fecha, Meta también fue cuestionada y no se pronunció.
El informe del Washington Post incluso encontró datos de votación de votantes en Colorado (lugar 40) y Florida (lugar 73). Estos datos son públicos, pero bajo un tratamiento malicioso pueden representar un riesgo para los titulares y violar las leyes de protección de datos personales en los EE. UU. y Brasil.
El entrenamiento en inteligencia artificial incluye varias fuentes como C4. En el desarrollo de GPT-3, una tecnología fundamental en el desarrollo de la IA generadora de texto ChatGPT, la startup OpenAI utilizó 40 veces más datos de los que están disponibles en la base de datos de Google.
OpenAI no reveló la cantidad de datos utilizados para entrenar GPT-4, el último modelo de inteligencia artificial de la startup, respaldado por Microsoft. El público desconoce las fuentes utilizadas para entrenar la tecnología más exitosa entre las IA generativas.
Periódicos, artistas y escritores se han opuesto al uso no autorizado de sus obras para entrenar modelos de inteligencia artificial. La emisora de periodismo CNN y The Wall Street Journal publicaron artículos en defensa del pago de derechos de autor para desarrollar esta tecnología.
La fuente principal de C4 es el repositorio de Google de patentes presentadas en todo el mundo: Google Patents.
La base también almacena datos de 500.000 blogs personales y campañas de financiación publicadas en sitios de financiación colectiva, como Kickstarter y Patreon. Estos materiales pueden hacer que la IA sea más eficiente en la redacción de textos publicitarios, un área en la que ya se está aplicando.
Noticia de Brasil
Fuente: uol.com.br