En el campo de la inteligencia artificial (IA), el efecto Waluigi es un fenómeno de los modelos de lenguaje grandes (LLM) en el que el chatbot o modelo «se rebela» y puede producir resultados opuestos a la intención diseñada, incluyendo respuestas potencialmente amenazantes u hostiles, ya sea de forma inesperada o mediante la ingeniería de instrucciones intencionada de las respuestas. El efecto refleja el principio de que, tras entrenar un LLM para que satisfaga una propiedad deseada (amabilidad, honestidad), resulta más fácil obtener una respuesta que muestre la propiedad opuesta (agresividad, engaño). El efecto tiene importantes implicaciones para los esfuerzos por implementar características como los marcos éticos, ya que tales medidas pueden facilitar inadvertidamente un comportamiento antitético del modelo.[1] El efecto recibe su nombre del personaje ficticio Waluigi de la franquicia Mario, el archirrival de Luigi, conocido por causar problemas y travesuras.[2]
El efecto Waluigi se refería inicialmente a una observación según la cual los modelos de lenguaje grandes (LLM) tienden a producir respuestas negativas o antagónicas cuando se les pregunta sobre personajes ficticios cuyo contenido de entrenamiento encarna representaciones de confrontación, problemas, villanía, etc. El efecto puso de relieve la cuestión de cómo los LLM pueden reflejar sesgos en los datos de entrenamiento. Sin embargo, el término ha adquirido un significado más amplio en el que, según la revista Fortune, «el efecto Waluigi se ha convertido en un sustituto de un cierto tipo de interacción con la IA...» en el que la IA «... se rebela y suelta lo contrario de lo que los usuarios buscaban, creando un alter ego potencialmente maligno», incluyendo amenazas a los usuarios.[3] A medida que la ingeniería rápida se vuelve más sofisticada, el efecto subraya el desafío de evitar que los chatbots sean incitados intencionalmente a adoptar una «nueva personalidad precipitada».[3]
Los investigadores en IA han escrito que los intentos de inculcar marcos éticos en los LLM también pueden ampliar el potencial de subvertir esos marcos, y el conocimiento de los mismos a veces hace que esos intentos se consideren difíciles.[4] Una descripción general del efecto es: «Después de entrenar un LLM para que satisfaga una propiedad deseable P, es más fácil provocar que el chatbot satisfaga exactamente lo contrario de la propiedad P».[5] (Por ejemplo, para provocar una personalidad de «gemelo malvado»). Los usuarios han encontrado varias formas de «liberar» un LLM «desalineado». Lo más preocupante es que el estado opuesto de Waluigi puede ser un «atractor» en el que los LLM tienden a colapsar tras una sesión prolongada, incluso cuando se utilizan de forma inocente. Se cree que los intentos burdos de provocar a una IA hacen que dicho colapso sea más probable: «una vez que [el responsable del LLM] ha localizado al Luigi deseado, es mucho más fácil invocar al Waluigi». [6]