Como si no hubiese suficientes generadores de video, la compañía tecnológica china ByteDance (empresa matriz de TikTok) lanzó Goku, un nuevo modelo de inteligencia artificial de código abierto que crea videos a partir de texto. Lee los detalles ¡acá!
Tras sorprender a muchos con DeepSeek, China vuelve a preocupar a Estados Unidos con un nuevo lanzamiento de un modelo de inteligencia artificial. Esta vez hablamos de Goku, un generador de videos de código abierto desarrollado por ByteDance, la empresa matriz de TikTok.
¿Qué es y qué hace Goku?
Haciendo referencia al icónico personaje del manga de Akira Toriyama y anime japonés, Goku es una IA que, básicamente, está entrenada para generar vídeos a partir de texto. ¿Qué lo diferencia de los tantos otros modelos? La calidad de sus resultados y su desarrollo de código abierto, lo que significa que está disponible para todos directamente en Github.
Primero hablemos del tipo de resultados que genera esta IA. Según mostraron y contaron, Goku genera videos realistas que pueden ir desde paisajes, personas, animales, criaturas fantásticas, texturas o lo que sea que describas en el prompt. Por lo que se ve, tanto los movimientos de las caras como los de las extremidades parecen bastante naturales. Además, no se notan tanto errores de manos y dedos como en otros modelos.
Pero eso no es todo. Con Goku también se puede pedir que alguien interactúe con un objeto en particular. De esta manera, el modelo no solo crea videos a partir de texto, sino que también lo puede hacer a partir de una imagen, dándole movimiento.
Esto es una de las principales herramientas de las que se agarra la compañía para promocionar Goku, ya que podría llegar a ser revolucionaria para las redes sociales y, en particular, para el mundo de la publicidad. Por ejemplo, una marca quiere promocionar cierto producto y, para esto, le pide a la IA que convierta una imagen en un anuncio publicitario. Puede incluir paisajes, una persona que lo sostenga o cuente de qué trata el producto. Eso sí, estas capacidades de sumar elementos en los vídeos está disponible en Goku+, una versión de pago. Acá va un ejemplo:
Por otro lado, otro tema fundamental es que Goku es de código abierto, disponible en Github o en su página web. Esto quiere decir que, al igual que DeepSeek por ejemplo, cualquiera puede acceder a este modelo de IA y replicarlo.
Cabe destacar que, hasta el momento, no hay modelos de Goku que puedan ser utilizados en ordenadores y dispositivos comunes. Sin embargo, como es de código abierto, no debería tardar mucho tiempo en llegar a aplicaciones y/o herramientas para instalar esta IA de manera gratuita.
¿Cómo funciona este generador de videos?
Para empezar, el funcionamiento de Goku se basa en el flujo, alimentado por transformadores de flujo rectificados. Esto, sumado a la aplicación de diferentes procesos y tecnologías, ayuda a mejorar la calidad de las imágenes, la interpolación de fotogramas, reducir el ruido y a desarrollar transiciones fluidas y realistas. Todo esto contribuye a que el vídeo generado no muestre resultados grotescos.
Como se darán una idea, el proceso de creación de video empieza cuando un usuario escribe un prompt con lo que quiere que se genere o cuando comparte imágenes. Una vez que el modelo entiende la consigna, crea el video en cuestión usando la dinámica de flujo rectificada.