OpenAI presentó Voice Engine, una nueva herramienta de conversión de texto a voz que preocupa a varios

A pesar de que sus herramientas con Inteligencia Artificial hayan preocupado a muchos, OpenAI sigue creciendo. El nuevo modelo que tiene entre manos la compañía es Voice Engine, que puede leer texto e imitar voces con solo un audio de referencia de 15 segundos. Lee más ¡acá!

El año pasado era todo sobre las imágenes creadas por Inteligencia Artificial; luego, llegó Sora, que genera videos de todo tipo desde texto. Pero ahora OpenAI subió de nivel y presentó otra herramienta, esta vez con el audio como protagonista: Voice Engine. Esta herramienta se centra en la recreación de voz y, como pueden imaginar, genera preocupación por la posible imitación de voces de figuras reconocidas.

Según describió OpenAI, Voice Engineutiliza entrada de texto y una única muestra de audio de 15 segundos para generar un habla con sonido natural que se parece mucho al hablante original”. Es más, la compañía agregó que “un modelo pequeño con una sola muestra de 15 segundos puede crear voces emotivas y realistas”.

Como este modelo es riesgoso si se usa irresponsablemente, OpenAI no lanzó la función completa de Voice Engine. Sin embargo, la compañía compartió información y resultados preliminares de una vista previa a pequeña escala que se hizo con unos 10 desarrolladores. Si querés escuchar cómo suena, podés encontrar las pruebas en la página de la compañía.

Estamos adoptando un enfoque cauteloso e informado para una publicación más amplia debido al potencial de uso indebido de la voz sintética. Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo”, dijo OpenAI.

Como les decíamos, Voice Engine puede imitar voces individuales con bastante precisión, capturando matices en cadencia y entonación, con sólo 15 segundos de audio. Algunos de los que trabajaron con OpenAI para esta herramienta fueron: Age of Learning, empresa de tecnología educativa, que usó el modelo para brindar asistencia de lectura a niños. También HeyGen, plataforma de narración visual de IA, que se sumó a la prueba para traducir contenido, como videos y podcasts, para que llegue a más personas en el mundo. Por último, Livox, aplicación de comunicación alternativa de IA, para apoyar a las personas que no son verbales o que tienen afecciones en el habla.

También, OpenAI compartió que trabajó con el Instituto de Neurociencias Norman Prince de Lifespan para ayudar a los pacientes que sufren condiciones del habla repentinas o degenerativas a recuperar la voz. Por ejemplo, se utilizó Voice Engine para restaurar el habla de una paciente joven que perdió su fluidez debido a un tumor cerebral vascular. ¿Cómo lo hicieron? Con una muestra de audio que sacaron de un video que había hecho para un proyecto escolar.

Sin embargo, OpenAI todavía no está listo para lanzar este modelo, ya que la empresa reconoce los graves riesgos de generar un discurso similar al humano, especialmente en momentos delicados como un año electoral en Estados Unidos.  

Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, que son especialmente importantes en un año electoral. Estamos colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporamos sus comentarios a medida que construimos”, compartió la compañía.

Según describieron, las políticas de uso de Voice Engine prohíben la suplantación de otra persona u organización sin consentimiento o derecho legal”. Es más, los términos de OpenAI con sus socios requirieron del “consentimiento explícito e informado del hablante original” y que aclaren a su audiencia que las voces que escuchan están generadas por IA. “Finalmente, implementamos un conjunto de medidas de seguridad, que incluyen marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se utiliza”.

Por último, OpenAI comentó: “Creemos que cualquier implementación amplia de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces que sean demasiado similares a figuras destacadas”.

Posteos relacionados

Jake Gyllenhaal sobre Road House: “usamos una nueva técnica en la que realmente se puede ver el impacto de un golpe en la cara y en el cuerpo”

Superman: James Gunn compartió la primera imagen de David Corenswet como Kal-EL

Doctor Who: te contamos todo lo que tenés que saber sobre el esperado regreso del personaje