La Dra. Tali Dekel, entre los investigadores líderes del mundo en IA generativa, se centra en las capacidades ocultas de los modelos de aprendizaje profundo a gran escala existentes. Su investigación con Google llevó al desarrollo del recientemente develado Lumiere
Hace apenas unos años, difícilmente podríamos haber imaginado que millones de personas en todo el mundo tendrían acceso a aplicaciones de IA generativas fáciles de usar que producen textos, imágenes y videos. Estas aplicaciones pueden generar salidas que parecen haber sido creadas por seres humanos, así como crear cosas que nunca han existido en la realidad.
El rápido avance en las capacidades de los grandes modelos de lenguaje, que después de décadas de desarrollo han comenzado a generar textos complejos y razonablemente creíbles, tomó por sorpresa incluso a los expertos. Como resultado, la atención también se volvió hacia modelos que combinan texto con datos visuales como imágenes y videos, y su desarrollo fue acelerado. Ahora que estos modelos pueden generar videos realistas de una calle de la ciudad ocupada o una ardilla caminando por la Luna. y todo lo que el usuario necesita hacer es introducir una breve descripción textual o imágenes para servir como fuente visual. Sin embargo, junto con estas sorpresivas capacidades y las preocupaciones que acompañan sobre los peligros inherentes a las computadoras tan poderosas, la gama operativa de redes de aprendizaje profundo todavía es limitada, especialmente cuando se trata de vídeo, y este es el reto que muchos investigadores están abordando.
El equipo del laboratorio de la Dra. Tali Dekel para el estudio de la visión computarizada en el Departamento de Informática y Matemática Aplicada del Instituto Weizmann de Ciencias espera superar las limitaciones de estas máquinas generadoras y llevarlas al nivel humano o incluso más allá.
Define el área de investigación como una realidad de re-rendering, en otras palabras, recrear el mundo visual usando herramientas computacionales, dice. Analizamos imágenes y videos y nos centramos en sus aspectos específicos, y luego creamos una nueva versión con diferentes características. Mi objetivo es mejorar la forma en que vemos el mundo, darnos más creatividad e incluso un nuevo tipo de interacción con los datos visuales.
Añade Dekel: Nuestra investigación plantea preguntas fascinantes, como: ¿Qué aprende un modelo generativo sobre el mundo y cómo codifica esta información? ¿Cómo podemos representar eficazmente la información visual en el espacio y el tiempo para permitirnos modificarla para que podamos finalmente interactuar con nuestro mundo dinámico a través de vídeos?
«Mi objetivo es mejorar la forma en que vemos el mundo, darnos más creatividad e incluso un nuevo tipo de interacción con los datos visuales»
Además de su trabajo en el Instituto Weizmann, Dekel también es investigadora de Google. Si bien sus estudios en Weizmann se centran en superar las limitaciones de los modelos de IA existentes, su trabajo en Google implica desarrollar nuevos modelos, como el innovador modelo de texto a vídeo Lumiere, cuya producción se dio a conocer recientemente al público. Lumiere puede, con el uso de un breve prompt de texto o foto de referencia, producir una rica e impresionante gama de videos o editar videos existentes. Por ejemplo, la modelo generó una serie de videos de una mujer corriendo en un parque, convirtiéndola en una figura hecha de bloques de madera, ladrillos de juguete coloridos o incluso flores. Cuando Lumiere se presentó con una imagen de un viejo tren de vapor que ondeaba humo en una vía férrea y los investigadores destacaron la parte de la imagen que contenía el humo, el modelo creó una imagen parcialmente animada en la que sólo se movía el humo. Lo hizo de una manera muy realista, manteniendo el resto de la imagen sin cambios. Los investigadores incluso se divirtieron un poco con Lumiere, pidiéndole que generara una Mona Lisa bostezando y poniendo una sonrisa a la cara de la chica de Vermeer con un pendiente de perlas.
Lumiere es un modelo de difusión de texto a vídeo diseñado para sintetizar videos que retratan el movimiento realista, diverso y coherente – un desafío fundamental en la síntesis de vídeo, según el artículo publicado por los investigadores, incluyendo a Dekel, cuando develaron el nuevo modelo. Lumiere es único en su capacidad de generar una serie completa de fotogramas sin huecos entre ellos, mientras que los modelos anteriores comenzaron generando fotogramas de teclado distantes en la escala espacio-temporal y sólo luego llenando el movimiento entre las fotos clave. Es por eso que los modelos anteriores tenían dificultades para generar movimiento natural y convincente; Lumiere puede generar secuencias de movimiento de alta calidad.
¿Pero cómo hacen sus modelos de aprendizaje profundo su magia? Incluso los científicos no están del todo seguros. Todo el campo de la IA Generativa está experimentando un cambio de paradigma, explica Dekel. En el pasado no tan lejano, estos modelos eran mucho más pequeños, más simples y diseñados para realizar tareas específicas, la mayoría de las veces utilizando datos etiquetados. Por ejemplo, para enseñar a una computadora a reconocer objetos en una imagen, tuvimos que presentarlo con una serie de imágenes en las que esos objetos fueron etiquetados y le explicamos que este es un coche, esto es un gato y así. Ahora los modelos han crecido y pueden aprender de enormes cantidades de datos sin etiquetar a los humanos. Los modelos adquieren una representación universal del mundo visual que pueden utilizar para una variedad de tareas, no sólo el propósito específico para el que fueron entrenados originalmente. Y aunque la mejora en estas habilidades de autoaprendizaje es evidente, todavía no sabemos exactamente cómo funcionan. Las secciones de las redes neuronales son algo así como una caja negra para nosotros, añade Dekel.
Este enigma es complicado cuando se trata de modelos generadores de vídeo, ya que cada segundo de vídeo se compone de unas 25 imágenes diferentes. En particular, la mayoría de los modelos de texto a vídeo a gran escala son muy complicados, requieren una enorme potencia informática y están entrenados en grandes cantidades de datos. Esto significa que el tamaño de las redes informáticas y los desafíos computacionales a los que se enfrentan son aún mayores que para los modelos que crean textos o imágenes y la gama de la operación impenetrable de los modelos se expande en consecuencia.
Para Dekel, las cajas negras dentro de estos modelos ofrecen excelentes oportunidades de investigación. Durante el proceso de autoaprendizaje, los modelos adquieren una gran cantidad de información sobre el mundo. Como parte de nuestra investigación sobre la re-renderización de la realidad usando herramientas digitales, estamos tratando de producir diferentes salidas de los modelos existentes, casi sin alterarlos en absoluto. En cambio, estamos tratando de entender mejor cómo funcionan mientras intentan descubrir nuevas tareas que son capaces de completar, Dekel dice sobre la investigación que llevó a cabo con el colega de Weizmann Dr. Shai Bagon, Dr. Yoni Kasten de NVIDIA Research y los estudiantes de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman y Danah Yatim.
Los investigadores del laboratorio de Dekel también buscan sofisticados métodos para procesar videos, que incluyen dividir el contenido en componentes más simples, como una imagen que presenta el fondo de un video y otras imágenes, cada una de las cuales retrata objetos que cambian en el transcurso del video. Esta separación hace que el proceso de edición sea mucho más simple: En lugar de procesar un número masivo de píxeles, el modelo edita sólo una imagen y todos los demás marcos cambian en consecuencia. Por ejemplo, si el color de un vestido cambia en un marco, el modelo sabe cómo hacer ese cambio a lo largo de todo el vídeo, asegurando la continuidad. Otro desafío con el que los investigadores están lidiando es el hecho de que muchas imágenes y videos generados por modelos no se ven realistas, presentando objetos que se mueven diferente a lo que se esperaría, dada nuestra experiencia en el mundo real.
Como parte de sus esfuerzos para enseñar a los modelos cómo generar videos en los que el movimiento es consistente y lógico, Dekel y su equipo mostraron cómo se pueden ampliar las capacidades de los modelos de texto a imagen para que también puedan generar y editar videos. Por ejemplo, invirtió un video de un lobo moviendo su cabeza de lado a lado en un modelo de código abierto llamado Stable Diffusion y le pidieron que generara un video similar al que se veía un muñeco de trapo similar al lobo. Al principio, la modelo creó un video que era retrasado y poco realista, ya que cada imagen del video fue editada de manera diferente. Pero al entender mejor cómo el modelo procesa y representa las imágenes durante la edición, los investigadores lograron hacer que editara todos los fotogramas de la misma manera, resultando en un video donde la muñeca lobo se movía de forma natural y convincente.
Dekel recibió recientemente una subvención del Consejo Europeo de Investigación de 1,5 millones de euros, un recurso de prestigio para jóvenes científicos. Pretende utilizar la subvención para abordar otras limitaciones de los modelos que generan y editan videos. Dado que el procesamiento de vídeo es una tarea tan compleja, existe una brecha significativa entre el conocimiento de que un modelo ya ha recogido de los muchos videos en los que fue entrenado y las características específicas del movimiento en cualquier video que se pida al modelo generar. Dekel intentará desarrollar un modelo capaz de aprender más sobre lo que tiene que ver con un vídeo específico de la experiencia que ha recopilado de miles de otros videos.
¿Qué hay de las preocupaciones sobre el enorme poder que poseen estos modelos? Hay un delicado equilibrio entre ser consciente de los riesgos potenciales de la tecnología y querer avanzar más, dice Dekel. Nuestro compromiso es salvaguardar ese equilibrio. Para el público en general, a veces podría parecer que estos modelos son omnipotentes, pero eso no es el caso actualmente. Mi principal objetivo como investigador es expandir las posibilidades creativas que cada uno de nosotros tiene, incluyendo personas que no son profesionales, y avanzar en la ciencia y la capacidad computacional de ver el mundo.
A título personal
Para un científico que trabajaba a la vanguardia de la tecnología, el viaje científico de Dekels comenzó en circunstancias decididamente de baja tecnología. Ella solicitó sus estudios de BSc (Balanced Scoredcard) en la Universidad de Tel Aviv mientras viajaba a la India después de su servicio militar, desde un café con mala conexión a internet. Me interesé relativamente tarde en la ciencia y la tecnología, cuando servía en la unidad de tecnología informática de la Fuerza Aérea, dice. Terminé estudiando ingeniería eléctrica, que es donde comenzó mi pasión por la investigación.
Dekel finalmente entró en una pista directa hacia un doctorado, obteniendo su doctorado en ingeniería eléctrica y visión informática de la Universidad de Tel Aviv en 2015. Luego realizó investigación postdoctoral durante dos años en el Laboratorio de Informática e Inteligencia Artificial del Instituto Tecnológico de Massachusetts. Cuando su asesora postdoc estableció un equipo de investigación en Google en Boston, se unió como investigadora senior y trabajó allí durante cuatro años. Ella sigue trabajando para la rama israelí del mismo equipo de Google un día a la semana. En 2021, en el apogeo de la pandemia de coronavirus, regresó a Israel y se unió a la facultad del Instituto Weizmann.
Fuente: Instituto Weizmann de Ciencias
La investigación de la Dra. Tali Dekels cuenta con el apoyo del Programa Puente Sagol Weizmann-MIT, el TVML Foundation MIT-Weizmann Collaboration Fund y la Beca Anual Shimon and Golde Picker – Weizmann.