Netflix presenta VOID, una IA que permite eliminar elementos de vídeos y modificar las interacciones con los objetos

LA VOZ REDACCIÓN

ACTUALIDAD

Uno de los ejemplos creados con VOID
Uno de los ejemplos creados con VOID

La herramienta de código abierto permite borrar también los efectos de las partes eliminadas sobre el entorno de la escena

08 abr 2026 . Actualizado a las 08:33 h.

Las herramientas de inteligencia artificial que eliminan objetos, personas o animales de fotografías o vídeos no son ninguna novedad y, de hecho, han constituido una de las primeras aplicaciones de la IA desde sus inicios. Pero Netflix ha dado un paso más allá con VOID, una tecnología de código abierto que no solo permite quitar los elementos indeseados, sino también, y mucho más importante, las interacciones entre ellos y otros objetos. Es decir, si tenemos una imagen de un coche en movimiento que, en un momento dado, choca contra otro vehículo, la herramienta permite, además de borrar a uno de los coches, generar una imagen en la que el otro jamás se ha estampado contra nada, sino que sigue su camino sin accidentes.

Es solo uno de los muchos ejemplos que VOID muestra en su página de presentación de esta herramienta como prueba de un nuevo paso en la corrección de imágenes en movimiento y que podría tener aplicaciones en todo tipo de sectores. Desarrollado a través de un modelo basado en la arquitectura CogVideoX, está optimizado para tratar las imágenes en vídeos mediante un condicionamiento de máscara cuádruple sensible a la interacción, como explican en el repositorio Hugging Face.

Como explican en la presentación del modelo, el método se basa en un modelo de visión-lenguaje (VLM) que, ante la instrucción del usuario de borrar un elemento de la escena, identifica cuáles son las otras regiones de la imagen que han sido afectadas de forma causal por la presencia de ese objeto, persona o animal —cosas que se caen, que chocan o que cambian trayectoria— y lo codifica dentro de una máscara que servirá como guía para el modelo de difusión.

Tras ese primer paso, se crea un vídeo físicamente factible ya sin el objeto y sin sus interacciones y, si el modelo detecta alguna deformación, se hace una nueva pasada para estabilizar la forma del objeto según las trayectorias analizadas.

Para entrenar al modelo, el equipo de Netflix junto a la Universidad de Sofia (Bulgaria) se han apoyado en dos fuentes: HUMOTO, para las interacciones entre humanos y objetos para renderizadas en Blender con simulación física; y Kubric, para interacciones solo entre objetos mediante Google Scanned Objects.

VOID, que responde a las siglas de Video Object and Interaction Deletion («eliminación de objetos e interacciones de vídeo»), es un modelo de código abierto y se puede encontrar en repositorios como GitHub o Hugging Face, por lo que tanto creadores como investigadores pueden probarlo y experimentar con él de forma gratuita.

La página muestra varios ejemplos muy reveladores. Entre ellos, uno de los más claros es aquel en el que la herramienta elimina una prensa que aplasta a un pato de goma. Mientras el resto de modelos eliminan la prensa, pero mantienen la deformación, VOID mantiene al pato intacto, editando así el objeto con el que interacciona el eliminado. Otro de los ejemplos muestra un artilugio rotatorio que empuja a una pieza púrpura, que provoca un efecto dominó que precipita otras fichas de colores. En el ejemplo, se borran dos de los elementos intermedios, de modo que la última pieza no llega a caer. Y en otro, un hombre manipula dos peonzas, que se desequilibran al ser tocadas. En el ejemplo. VOID elimina al humano, de modo que los objetos continúan rotando sin interferencias.

No obstante, aunque sea un avance, esta tecnología también presenta riesgos potenciales. Un uso indebido de ella podría ayudar a generar contenido manipulado y fomentar la desinformación, difuminando más la línea entre realidad y ficción.