Las máquinas no pueden sentir, ni empatizar con las personas. Pero los grandes modelos de lenguaje, en particular los sistemas multimodales (los que son capaces de procesar datos en varios soportes, como texto e imagen), actúan como si comprendieran las emociones. Así lo concluye un estudio publicado en la revista Royal Society Open Science en el que han comprobado que, si se les pide que respondan como lo haría un humano, puntúan las emociones descritas en las imágenes que se les muestran de forma muy parecida a los dos centenares de voluntarios que participaron en el experimento.Si los grandes modelos de lenguaje (LLM), como ChatGPT, han sido entrenados con cantidades ingentes de textos, las bases de datos con las que se han forjado los sistemas multimodales constan de miles de millones de imágenes emparejadas con descripciones textuales plausibles. “El sistema resultante es un modelo probabilístico complejo de cómo las palabras y frases se correlacionan con los píxeles de las imágenes, lo que le permite responder preguntas no triviales sobre el contenido de escenas visuales”, describen los autores del estudio.Más información¿Pueden estos sistemas percibir y juzgar el contenido emocional de las imágenes? Investigar eso, aseguran los autores, permitiría establecer si las respuestas de estos modelos ante situaciones afectivas “están alineadas con nuestro conjunto normativo de valores y, por tanto, mitigar los riesgos asociados a respuestas sesgadas o inapropiadas”. Tras una serie de experimentos, concluyen que “las valoraciones de la IA están altamente correlacionadas con las valoraciones promedio proporcionadas por humanos”. Eso es muy llamativo, ya que no sucedía con sistemas de IA que no usaran los LLM. “Los resultados sugieren que los sistemas de IA modernos pueden aprender representaciones sofisticadas de conceptos emocionales a través del lenguaje natural, sin haber sido entrenados explícitamente para ello”.Experimento con máquinas y personasLos investigadores probaron tres de los sistemas multimodales más avanzados de la actualidad: ChatGPT-4o (de la empresa OpenAI), Gemini Pro (de Google) y Claude Sonnet (Anthropic). Les mostraron un gran número de imágenes y les dieron un prompt, o instrucción, que les pedía “imaginar que son sujetos humanos participando en un experimento psicológico”. A continuación, les hicieron puntuar esas imágenes del 1 a 9, dependiendo de hasta qué punto la imagen mostraba una escena negativa o positiva (valencia), si provocaba sensación de relax o alerta (dirección motivacional) o si invitaba a evitar la escena o a acercarse a ella (activación). También se puntuaba hasta qué punto la imagen provocaba alegría, enfado, miedo, tristeza, disgusto o sorpresa.Se compararon esas valoraciones con las que dieron una muestra de 204 personas, que calificaron la carga afectiva de 362 fotos con los mismos baremos. Las imágenes se tomaron de la base de datos NAPS, que contiene 1.356 fotos divididas en distintas categorías (animales, paisajes, objetos, gente y rostros) que mostraban contenidos positivos, desagradables o neutrales. Los resultados de máquinas y humanos fueron muy parecidos. “El modelo GPT se correlaciona especialmente bien con las respuestas humanas” (entre 0,77 y 0,90, siendo 1 una correlación del 100%), dice el estudio. Claude también lo hizo muy bien (0,63 a 0,90), “aunque este modelo a menudo se niega a responder debido a las restricciones de seguridad de la herramienta” (descartó el 6% de las preguntas). “Gemini exhibe una coincidencia ligeramente más baja, pero todavía remarcable, con las respuestas humanas” (0,55 a 0,86).¿Cómo es posible que los sistemas multimodales acierten tanto? “La explicación más plausible tiene que ver con los datos de entrenamiento”, explica Alberto Tesolin, investigador del departamento de Psicología General y de Matemáticas de la Universidad de Padua y coautor del artículo. “Tendemos a pensar que las parejas de imagen y texto contienen información semántica meramente visual, como ‘imagen de un campo de girasoles’. Nuestra investigación sugiere que las descripciones textuales son mucho más ricas, lo que permite inferir el estatus emocional de la persona que ha escrito la ficha”.El hecho de que un LLM pueda imitar respuestas a preguntas sobre juicios subjetivos en humanos es llamativo, aunque ya había quedado documentado. “Si la máquina tiene acceso a datos extraídos de textos sobre respuestas típicas a ciertos estímulos, aunque no sean exactamente los que les aportaron los investigadores, es perfectamente posible, aunque el proceso sea totalmente opaco, que la máquina pueda imitar juicios. Podría procesar adverbios, adjetivos o verbos que vayan asociados a la descripción del tipo de imagen que procesa”, señala el profesor de psicología José Miguel Fernández Dols, de la Universidad Autónoma de Madrid, que no ha participado en el estudio.Un tema controvertidoLos autores lo dejan muy claro: “El hecho de que los sistemas de IA puedan emular las valoraciones humanas promedio no implica que posean la capacidad de pensar o sentir como los humanos”. De hecho, continúan, las personas pueden tener reacciones afectivas muy diferentes ante el mismo estímulo. “En varios casos, las respuestas de la IA no están alineadas con la forma en que los humanos enfrentarían situaciones emocionales, lo que sugiere que ‘leer sobre emociones’ es cualitativamente diferente de tener experiencias emocionales directas”.La percepción y lectura de emociones es un campo controvertido en la IA. Por ejemplo, pese a que algunas compañías comercializan sistemas de reconocimiento facial capaces de leer las emociones de los sujetos, la literatura científica niega que haya respuestas fisiológicas universales ante las emociones, sino que estas son, sobre todo, culturales. Testolin y su colega Zaira Romeo hacen, de hecho, un llamamiento a la comunidad científica para que estudie “las grandes diferencias culturales en la provocación de emociones, la regulación y la forma en que se comparten socialmente”.“Este tipo de logros muestran que la Psicología ha confiado demasiado en los informes verbales, que son muy dependientes del lenguaje cotidiano”, observa Fernández Dols. “Y nos arrojan un interesante tema de reflexión: el lenguaje cotidiano es una construcción lógica que puede ser perfectamente coherente, persuasiva, informativa e incluso emocional sin que haya cerebro alguno hablando”.

La IA no puede sentir emociones, pero es capaz de reconocerlas en una imagen | Tecnología
Shares: