MADRID, 20 (Portaltic/EP)
Investigadores de Stanford Internet Observatory han detectado material de abuso sexual infantil (CSAM, en inglés) en la base de datos que empresas como Stable Diffusion utilizan para entrenar sus modelos de Inteligencia Artificial (IA) generativa de imagen, lo que ha motivado su retirada.
LAION-5B es una base de datos con 5.850 millones de pares de texto-imagen que se utiliza para el entrenamiento de IA generativas dedicadas a la creación de imágenes. Su finalidad, como explican desde LAION en su página web, es la de “democratizar la investigación y la experimentación en el entrenamiento de modelos multimodales a gran escala”.
Ya en su descripción matizan que la base de datos no está curada y que la “naturaleza no seleccionada del conjunto de datos” los enlaces que contiene pueden dar lugar a “contenido muy incómodo y perturbador”.
Un equipo de investigación de Stanford Internet Observatory liderado por Jeffrey Hancock se propuso saber el papel que ha tenido el material de abuso sexual infantil en el entrenamiento de los modelos de IA generativa de imágenes, dada su capacidad para generar contenidos explícitos de adultos, y también de abuso de menores.
Para ello, recurrieron a una combinación de coincidencia de hash perceptual de PhotoDNA, coincidencia de hash criptográfica, consultas de vecinos más cercanos y clasificadores de aprendizaje automático, como detallan en el resumen del texto de la investigación.
Su trabajo identificó “cientos de casos de CSAM conocidos en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas”.
LAION ha retirado temporalmente la base de datos, como confirmó al portal especializado 404 Media, para asegurarse de que los conjuntos de datos “son seguros antes de volver a publicarlos”.
- Te recomendamos -