OpenAI lanza Sora, una revolucionaria herramienta de vídeo con inteligencia artificial

El programa presentado en redes por la compañía es capaz de crear clips de alta calidad a partir de simples peticiones mediante texto

Captura de pantalla de un fotograma de uno de los vídeos de muestra publicados por OpenAI generados con la herramienta de inteligencia artificial Sora.Vídeo: EPV

Washington - 16 feb 2024 - 00:18CET

Cuando aún no ha pasado la fascinación por ChatGPT y los modelos de lenguaje de inteligencia artificial generativa, OpenAI acaba de presentar una deslumbrante y revolucionaria herramienta de creación de vídeo llamada Sora. Con ella, basta dar una descripción de lo que se quiere ver en la pantalla y ahí está el clip, creado por inteligencia artificial. Algunos están más logrados que otros, a veces tienen ese estilo de videojuego que los diferencia de la realidad, pero todos son sorprendentes.

El consejero delegado de OpenAI, Sam Altman, ha hecho el anuncio del lanzamiento en la red social X, que se ha inundado en un momento con las nuevas creaciones. Vídeos realistas, futuristas, alocados, de dibujos animados… Los vídeos incluyen todo tipo de creaciones automáticas creadas con inteligencia artificial generativa. Sora es capaz de producir vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos.

En las pruebas mostradas por Altman y su compañía se ven escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha pedido en la solicitud, sino también cómo existen esas cosas en el mundo físico, según OpenAI. El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes, explica la empresa.

“Aquí está Sora, nuestro modelo de generación de vídeo”, ha escrito Altman. “Ofrecemos acceso a un número limitado de creadores”, ha añadido, antes de pedir a sus seguidores que le hicieran sugerencias para ir creando nuevos vídeos, además de las muestras que ya había ofrecido en su página web.

Las instrucciones pueden ser más o menos detalladas. Uno de los ejemplos que ofrece OpenAI responde a la siguiente descripción: “Una elegante mujer camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean”. Y el resultado es sorprendente (arriba).

Otro señala: “Tráiler de una película sobre las aventuras del hombre del espacio de 30 años que lleva un casco de moto de punto de lana roja, cielo azul, desierto de sal, estilo cinematográfico, rodado en película de 35 mm, colores vivos” (abajo).

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas que faltan.

Se puede pedir un contenido, un estilo y dar todo tipo de indicaciones. Altman ha ido publicando vídeos nuevos solicitados por los tuiteros, probando que los resultados son inmediatos. Sora también puede crear varias tomas dentro de un mismo vídeo generado manteniendo con precisión los personajes y el estilo visual.

“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real”, explica OpenAI al presentar la nueva herramienta de conversión de texto a vídeo. “Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a las indicaciones del usuario”, añade.

De momento, la herramienta se ha puesto a disposición de los llamados equipos rojos. Los miembros de esos equipos tratan de cuestionar un producto o servicio, forzarlo al límite, ponerlo a prueba y encontrar sus fallos como si fueran enemigos de la empresa. Aquí tienen la misión específica de evaluar áreas críticas en busca de potenciales daños o riesgos. Entre ellos hay expertos en áreas como la desinformación, los contenidos que incitan al odio y la parcialidad.

Open AI también está dando acceso a una serie de artistas visuales, diseñadores y cineastas para que les den su opinión sobre cómo mejorar el modelo para que resulte más útil a los profesionales creativos.

“Estamos compartiendo los avances de nuestra investigación con antelación para empezar a trabajar con personas ajenas a OpenAI y recibir sus comentarios, así como para dar al público una idea de las capacidades de IA que se vislumbran en el horizonte”, explica la compañía.

Defectos a pulir

La propia firma de inteligencia artificial reconoce que Sora todavía tiene algunos fallos muy evidentes. Puede que le cueste simular con precisión la física de una escena compleja y que no entienda casos concretos de causa y efecto. Pone como ejemplo que una persona puede dar un mordisco a una galleta, pero después la galleta puede no tener la marca del mordisco.

El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, confundir izquierda y derecha, y puede tener problemas con descripciones precisas de acontecimientos que tienen lugar a lo largo del tiempo, como seguir una trayectoria específica de la cámara.

Antes de poner la herramienta a disposición del público, OpenAI promete tomar algunas precauciones. Entre ellas está tomar en cuenta las indicaciones de los equipos rojos. Además, está creando herramientas para ayudar a detectar contenidos engañosos, con detectores que puedan decir cuándo un vídeo ha sido generado por Sora. También ha desarrollado potentes clasificadores de imágenes que se utilizan para revisar los fotogramas de todos los vídeos generados y garantizar que cumplen sus políticas de uso antes de mostrárselos al usuario.

Además, reutilizará los métodos de seguridad que creó para sus productos que utilizan DALL-E 3. Por ejemplo, el clasificador de texto comprobará y rechazará las solicitudes de entrada de texto que infrinjan sus políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros.

“Nos pondremos en contacto con responsables políticos, educadores y artistas de todo el mundo para conocer sus inquietudes e identificar casos de uso positivos para esta nueva tecnología. A pesar de las numerosas investigaciones y pruebas realizadas, no podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella. Por eso creemos que aprender de la utilización en el mundo real es un componente fundamental para crear y lanzar con el tiempo sistemas de IA cada vez más seguros”, concluye OpenAI.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.

Sobre la firma

Miguel Jiménez

Corresponsal jefe de EL PAÍS en Estados Unidos. Ha desarrollado su carrera en EL PAÍS, donde ha sido redactor jefe de Economía y Negocios, subdirector y director adjunto y en el diario económico Cinco Días, del que fue director.

Tu comentario se publicará con nombre y apellido

Normas

Rellena tu nombre y apellido para comentarcompletar datos

Suscríbete en El País para participar Ya tengo una suscripción