Engañar una IA mediante documentos con instrucciones ocultas sigue siendo fácil
Un estudio de Anthropic en colaboración con otras instituciones concluye que un número fijo y reducido de documentos maliciosos puede introducir una puerta trasera en modelos de entre 600 millones y 13.000 millones de parámetros, independientemente del volumen de datos de entrenamiento.


