OpenAI subió de nivel y decidió alejarse un poco del generador de imágenes para crear videos realistas e imaginativos a partir de instrucciones de texto. Este nuevo modelo de IA se llama Sora y, hasta el momento, solo está disponible para un pequeño grupo de personas.
Si antes se preocupaban por las imágenes realistas creadas con Inteligencia Artificial, ahora parece que vamos a tener que prestar todavía más atención, pero a los videos. Sí, OpenAI creó Sora, un nuevo modelo de IA que crea videos (tanto realistas como imaginativos) a partir de una descripción que le demos en texto.
Según lo describe OpenAI, Sora puede generar videos de hasta un minuto de duración “manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario”. Por ahora, este modelo solo está disponible para los miembros del equipo rojo de la compañía para evaluar áreas críticas en busca de daños o riesgos. También tienen acceso algunos artistas visuales, diseñadores y cineastas para dar comentarios sobre cómo hacer avanzar el modelo “para que sea más útil para los profesionales creativos”.
La página de este nuevo modelo de IA dice que Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. Es más, el modelo comprende “no sólo lo que el usuario pidió en el mensaje, sino también cómo existen esas cosas en el mundo físico”.
Al igual que con GPT y DALL·E, Sora tiene un amplio y profundo conocimiento del lenguaje, lo que le permite interpretar las indicaciones que se le hace con precisión y “generar personajes convincentes que expresan emociones vibrantes”. También, según describe OpenAI, puede crear múltiples tomas dentro de un solo video generado que “persisten con precisión los personajes y el estilo visual”.
Ahora bien, si miramos con detalle algunos de los videos generados con Sora, es probable que notemos ciertos errores, cosa que también pasaba con algunas imágenes generadas con IA. Problemas en las manos, patas de más en el caso de animales, entre varios otros. Sobre esto, OpenAI aclara que Sora puede tener dificultades para simular con precisión la física de una escena compleja y que es posible que no comprenda casos específicos de causa y efecto. Para esto da el ejemplo de una persona que muerde una galleta, pero que después la galleta no tenga la marca de la mordida.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, equivocarse entre izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo.
Si bien la llegada de un generador de video trae beneficios para creadores de contenido, educadores, gente que trabaja en publicidad o marketing, entre otros, también trae preocupación. Después de todo, la ola de fake news, desinformación y contenido mal intencionado que hubo con las imágenes hechas con IA podría agrandarse con Sora.
Sin embargo, OpenAI asegura que tomarán varias medidas de seguridad importantes antes de que su nuevo modelo esté disponible. Es más, la compañía agrega que, además de aprovechar los métodos de seguridad existentes, están creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video.
“Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo”, dice OpenAI.