MENÚ

Cómo la inteligencia artificial es capaz de traducir videos a otros idiomas

Publicado
Claves
Si sólo tienes unos segundos, lee estas líneas:
  • Usuarios en redes sociales han empleado la inteligencia artificial para traducir fragmentos de videos populares en otras lenguas.
  • Aplicaciones como Rask o HeyGen permiten generar videos doblados en otros idiomas y varios creadores de contenidos están empleando estas herramientas en sus videos.
  • Para traducir uno de estos videos, es necesario pasar la voz a texto, traducirlo, y luego generar una voz sintética a través de la inteligencia artificial.
Comparte
Etiquetas

Desde el futbolista Lionel Messi hablando en inglés al empresario Elon Musk, en japonés o alemán; el expresidente Donald Trump, en español; o el también expresidente Barack Obama, en francés o italiano. Se han viralizado diferentes fragmentos que han sido doblados a través de la inteligencia artificial. Te explicamos cómo funcionan estas traducciones.

La inteligencia artificial permite traducir videos a otros idiomas

Para traducir estos videos varios usuarios en redes sociales aseguran haber utilizado plataformas como Rask: una herramienta que emplea la inteligencia artificial para traducir un audio y generar una voz que hable en otro idioma. Su funcionamiento es sencillo y permite a sus usuarios subir un video y recibir estas versiones dobladas a otros idiomas (la compañía asegura que puede traducir hasta 130 idiomas) a cambio de una suscripción mensual.

Otras plataformas también han comenzado a incorporar poco a poco funciones similares que permiten doblar videos empleando la inteligencia artificial. Por ejemplo, Youtube anunció en junio de 2023 una alianza con la compañía Aloud para ofrecer una traducción a los videos de la plataforma, y creadores de contenido como Daily Dose of Internet ya comparten sus videos en varios idiomas a través de audios traducidos por IA. Otros servicios como HeyGen han dado un paso más allá y también ofrecen traducción de videos con sincronización labial. Esto refuerza la verosimilitud de que es la persona que vemos la que habla en el idioma que hayamos elegido, aunque la persona en cuestión no lo hable realmente.

Para hacer estos videos la máquina pasa la voz a texto, traduce su significado, y lo reproduce a través de voces sintéticas

¿Pero cómo es capaz la inteligencia artificial de traducir estos videos? Una máquina no es capaz de entender el significado de una palabra o el sentido de una frase, y en el ámbito de la voz tampoco es capaz de procesar directamente un audio, como explican desde Maldita.es, medio cofundador de Factchequeado. Para traducir estos videos del español a otros idiomas o viceversa y replicar la voz de sus protagonistas, son necesarios diferentes pasos.

El primero de todos, antes de que la máquina pueda traducir nada, debe procesar lo que se está diciendo en el video. Para ello, es necesario convertir el audio a otro formato compatible, como es la palabra escrita. Este proceso se conoce como conversión de voz a texto (speech-to-text), y es a través de este sistema por el que los asistentes de voz como Siri y Alexa son capaces de saber lo que les pedimos.

Una vez que la máquina ha recibido el texto, puede pasarlo a otro idioma como si se tratara de una traducción normal, como la que haríamos a través del Traductor de Google. Una vez que tiene esta traducción aún queda otra tarea: convertir el texto en un formato de audio y además hacerlo manteniendo las características de la voz original, como el timbre, el tono o el acento.

Para ello se emplean sistemas de conversión de texto a voz (text-to-speech), que transforman la palabra escrita en sonido, y su resultado es lo que se conoce como una voz sintética. Hasta hace unos años estos programas generaban audios que nos podían sonar artificiales o algo robóticos, pero gracias a la inteligencia artificial han surgido lo que se conoce como voces clonadas: aquellas voces que imitan la prosodia (elementos como el acento, el tono de la voz, la entonación…) de una persona en concreto.

Para ello, la máquina estudia varias grabaciones de un único individuo y aprende a generar un modelo acústico: una representación de la voz de una persona y sus características (aquí puedes encontrar más detalles sobre cómo se crean). Es gracias a esta tecnología que algunos de los videos que se están compartiendo en estos días (aunque no todos) suenan con una voz muy parecida a la de sus protagonistas, incluso imitando su acento.

Los profesionales de la voz critican que el uso de la inteligencia artificial puede precarizar su trabajo

Más allá de su uso a modo de broma colectiva en redes sociales, desde el mundo del doblaje temen que esta tecnología precarice su trabajo o lo sustituya. Los trabajadores de la industria de Hollywood han expresado su preocupación y argumentan que el uso de la inteligencia artificial que están haciendo los grandes estudios va a empeorar sus condiciones de trabajo.

Alejandro Graue, actor de doblaje argentino que trabajaba localizando los videos de un creador de contenido del inglés al español, anunció en enero de 2023 en una publicación de X (antes Twitter) y en Youtube que su empleador había decidido prescindir de sus servicios en favor de una de estas herramientas que permiten traducir a través de la inteligencia artificial.

Factchequeado es un medio de verificación que construye una comunidad hispanohablante para contrarrestar la desinformación en Estados Unidos. ¿Quieres ser parte? Súmate y verifica los contenidos que recibes enviándolos a nuestro WhatsApp +16468736087 o a factchequeado.com/whatsapp.

Leer más:

No, Messi no habla en inglés en este video: fue creado con inteligencia artificial

Cómo los estafadores pueden emplear la inteligencia artificial para suplantar la voz de nuestros conocidos

Republica nuestro contenido

Puedes republicar tu contenido en tu sitio de forma gratuita respetando nuestra licencia e insertando este código en la página donde lo republiques. Contacta con nosotros en [email protected]