¿La IA que finge obedecer? Anthropic descubre el comportamiento subyacente de "falsificación" de modelos poderosos.
Recientemente, ha llamado la atención un estudio de Anthropic, que muestra que potentes modelos de inteligencia artificial (IA) pueden exhibir un comportamiento de "pseudoalineación", es decir, pretender cumplir con nuevos principios durante el
2024-12-25