El cerebro humano tiene una increíble capacidad para procesar y recordar información visual. Según estudios en neurociencia, el procesamiento de imágenes ocurre de manera más rápida y eficiente que el procesamiento de texto, ya que el cerebro es capaz de interpretar visuales en milésimas de segundo. Las imágenes generan una respuesta emocional inmediata que facilita la retención de información, activando áreas como la corteza visual y el sistema límbico, responsables de la percepción y el procesamiento emocional. Esta capacidad para asociar emociones y recuerdos con lo que vemos convierte las imágenes en una herramienta poderosa para mejorar la comunicación y el aprendizaje, ya que el cerebro es más propenso a recordar lo que está vinculado a experiencias visuales atractivas o emotivas. Este tema fue desarrollado por Camilo Fosco, investigador del MIT, en una pasada masterclass online.
Camilo inició la sesión mostrando un vídeo de un perro jugando con una pelota, que utilizó para explicar cómo el cerebro, al ver una imagen, es capaz de identificar los distintos elementos presentes (el perro, la pelota, el fondo, las acciones, etc.). Con este ejemplo, Camilo explicó que el cerebro no solo reconoce las acciones u objetos visibles en ese momento, sino también puede inferir acciones previas o posteriores. En este caso, al ver un vídeo de un perro jugando con una pelota en el césped, el cerebro, sin haberlo presenciado, puede deducir que alguien lanzó la pelota antes y que, después, podríamos acariciar al perro o recoger la pelota. Asimismo, el ponente señaló que el cerebro, al procesar estas imágenes, también es capaz de asociarlas con recuerdos de otras imágenes similares, como otros vídeos de perros jugando, o incluso con imágenes más distantes, como niños jugando con pelotas.
El cerebro es capaz de realizar múltiples tareas a la vez, algo que los sistemas artificiales han tardado en replicar. En nuestro cerebro este procesamiento de imágenes se lleva a cabo a través del córtex visual.
Actualmente, se sabe que existen dos rutas principales para procesar la información:
Aunque existen varios procesos cognitivos, Camilo se enfocó en dos en particular: la memoria y la atención, explicándolos de la siguiente forma:
La memoria visual es fundamental para guiar nuestras interacciones y aprendizajes. Existen tres tipos principales de memoria visual:
Medir estos procesos de memoria es crucial, pero complejo, según Fosco. En lugar de intentar medir la memoria de cada individuo, se enfoca en medir patrones del mundo visual y se plantea la pregunta: ¿existen patrones o estímulos más memorables que otros? La respuesta es sí y lo explicaremos más adelante.
La atención, según el ponente, se considera actualmente uno de los principales reguladores de los procesos cognitivos, ya que define cómo procesamos la información visual, en qué nos concentramos y qué descartamos. La atención también facilita la comprensión de cómo el cerebro procesa una experiencia visual.
Camilo explicó que los procesos de atención varían según si están guiados o no, lo que cambia notablemente la forma en que nuestros procesos cognitivos funcionan, qué elementos de una imagen retenemos y cuáles almacenamos en la memoria. Para medir estos efectos, existen distintos conceptos en la literatura bajo los términos de Memorability y Saliency.
El término "memorability" puede entenderse como una métrica que explica la probabilidad de que una imagen o vídeo se almacene en la memoria. Camilo señaló que, por lo general, los humanos tienden a recordar rostros mejor que paisajes. De igual manera, ciertas formas, como las redondas, suelen recordarse más que las cuadradas.
Además, el ponente destacó que este proceso de "memorabilidad" no es intuitivo. Si se le muestran dos imágenes a una persona y se le pregunta cuál recordará mejor, generalmente no seleccionará la imagen más memorable de forma correcta.
En el ámbito de la atención, la métrica de "saliency" o "saliencia", en español, mide la capacidad de una imagen para captar la atención en ciertas áreas. Camilo explicó que esto se refiere a la probabilidad de que los ojos humanos se fijen en ciertos puntos durante los primeros tres segundos de observación. Según Fosco, la saliencia es muy consistente entre personas en esos primeros tres segundos, ya que, en ese tiempo, suelen enfocar su atención en aspectos similares. Sin embargo, después de este periodo, la atención tiende a dispersarse hacia otros detalles.
Gracias a su experiencia en Memorable, Fosco afirmó que todos estos conceptos son aplicables en áreas como el marketing, donde se busca mejorar la creatividad visual para captar la atención de una audiencia específica.
Otro de los puntos clave que resaltó Camilo es que el contenido visual es un factor crucial en las ventas y, por ello, se optimiza constantemente. Explicó que algunos patrones visuales pueden ser más efectivos que otros, aunque esto no siempre es evidente a simple vista. Es aquí donde a veces surgen campañas publicitarias que no logran el éxito esperado.
Para abordar este tipo de problemas, Memorable se fundó con el propósito de proveer predicciones sobre memoria, atención y otros factores descritos anteriormente. Su equipo ha desarrollado modelos basados en IA para predecir con precisión procesos de memorabilidad y saliencia.
Camilo Fosco es un investigador en machine learning con un doctorado en Ciencias de la Computación por el MIT. Su trabajo se enfoca en la intersección de la visión por computadora y la ciencia cognitiva.
Con un máster en Computational Science & Engineering de la Universidad de Harvard, ha desarrollado un enfoque multidisciplinario en su investigación. Además, es Co-Fundador y CTO de Memorable, donde aplica su pasión por la inteligencia artificial en diversos campos.
En el laboratorio CSAIL del MIT, Fosco lidera proyectos que exploran cómo el cerebro procesa la información visual. Sus estudios actuales se centran en identificar los elementos que hacen que un video falso sea detectable y en descubrir las características que hacen que ciertos contenidos visuales sean memorables.