viernes, 23 de febrero de 2024

Qué es Sora, cómo funciona, y qué se puede hacer con la inteligencia artificial para generar vídeos de OpenAI

Vamos a explicarte qué es y qué puede hacer Sora, el nuevo sistema de inteligencia artificial creado por OpenAI. Se trata de una nueva revolución de inteligencia artificial que viene de la mano de los creadores de ChatGPT y DALL-E, que vuelven a innovar en el sector.

Así como ChatGPT genera texto y DALL-E genera imágenes a partir de texto, lo que hace Sora es generar vídeos a partir de nuestros comandos textuales. De momento, este modelo no es accesible para todos, solo para investigadores de la empresa, pero promete ser la próxima gran revolución.


Qué es Sora y cómo funciona



Sora es un sistema de inteligencia artificial creado por OpenAI, la misma empresa que ha creado otros sistemas conocidos como ChatGPT o DALL-E. En este caso, es una IA que genera vídeos a partir de texto, de forma que tú le escribes lo que quieres ver mediante un prompt o comando textual, y la generará de la nada.

Esta inteligencia artificial es muy similar a los modelos que crean imágenes a partir de texto, y que a la vez se basa en parte de la tecnología de modelos de lenguaje como GPT. Este sistema es capaz de entender lo que le pides con un lenguaje natural, ya que ha sido entrenada para entender la manera en las que solemos hablar y cómo nos expresamos para pedir o preguntar algo.

Después de entender lo que le has pedido en un prompt, Sora podrá generar vídeos en los que se vea en movimiento lo que le has pedido, lo que supone un enorme paso más con respecto a simplemente crear imágenes.

Esto lo ha conseguido porque es un modelo entrenado con una enorme biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y cualquier cosa que le pidas, y será capaz de recrearlos en vídeo. Sabrá a lo que te refieres cuando le hables de tipos de personas, de vestimenta, de accesorios o de efectos visuales.


Qué puedes hacer con Sora



Sora es capaz de generar escenas complejas en las que aparezcan varios personajes, y también puedes especificar el tipo de movimiento que quieras que realice. También puedes detallar el entorno, y Sora sabrá interpretar lo que le dices y cómo son las cosas en el mundo físico.

Mira por ejemplo el vídeo que te vamos a enseñar a continuación. En él, se ha utilizado un prompt en el que se le ha dicho que cree a una mujer elegante caminando por una calle de Tokyo llena de neones, y con señalizaciones urbanas. En el prompt que se utilizó, también se describió la vestimenta al detalle, así como sus gafas de sol o pintalabios.

Por lo tanto, es capaz de generar con precisión a la persona y de reflejar cómo le has pedido que esté vestida. Además, también refleja otros detalles que se le han pedido como que la calle esté húmeda y haya reflejos con efecto espejo. A continuación te dejamos el vídeo, y debajo de él la traducción del prompt utilizado.


"Una mujer elegante camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean".

Esto te puede servir como un ejemplo para que veas las calidades y la fiabilidad a la hora de reflejar lo que le has pedido. También entiende contextos, y al ser en Tokyo ha hecho que la mujer tenga rasgos orientales. Además de todo esto, Sora también te permite especificar rasgos como su edad o su vestimenta, o algunos otros atributos físicos y los movimientos que está realizando.

Como suele ser habitual, las capacidades de Sora también dependerán de la habilidad de cada uno para crear prompts complejos en los que hacer las mejores descripciones con las que obtener resultados a medida. Cuanto más detallada sea la descripción del prompt, más detallada será la imagen que se muestre con respecto a lo que quieras obtener.

De momento, este modelo de inteligencia artificial está en una fase temprana de su desarrollo, y genera vídeos de hasta 60 segundos. Además, la empresa advierte que puede tener algunos problemas a la hora de recrear con exactitud algunas físicas.


Cuándo llegará Sora


Como hemos dicho, de momento este modelo está en una fase de prueba, y solo pueden acceder investigadores de OpenAI. Por lo tanto, está todavía limitada a pruebas de laboratorio, con las que se está probando su funcionamiento.

Aquí, OpenAI asegura que Sora se acabará incorporando al catálogo de productos de la empresa, pero todavía no ha dado ninguna fecha concreta para ello. De momento, dicen que primero deben tomar medidas para garantizar la seguridad de los usuarios.


Fuente: Xataka

No hay comentarios:

Publicar un comentario