La inteligencia artificial (IA) es noticia y estamos viendo más aplicaciones que nunca: modelos conversacionales como ChatGTP, que nos permite hablar con una máquina y preguntarle todo tipo de cosas (aunque comete fallos), otros chatbots incorporados a buscadores por los que apuestan las grandes tecnológicas o voces sintéticas para devolverle la posibilidad de hablar a aquellos que la han perdido. Pero los timadores o estafadores también han comenzado a utilizar esta tecnología para llevar a cabo sus estafas. En concreto, están utilizando la IA para suplantar la voz de conocidos y engañarnos.
Hay estafadores que han empleado voces clonadas a través de la inteligencia artificial para engañar a sus víctimas
Es el caso de Ruth Card y Greg Grace, un matrimonio estadounidense que recibió una supuesta llamada telefónica de su nieto pidiendo auxilio. Según relata la pareja, en la llamada una voz que sonaba a la de su familiar explicaba que se encontraba en prisión sin teléfono o billetera, y que necesitaba dinero para pagar la fianza. El matrimonio contó que pudieron notar “el miedo” en la voz de su ser querido, y que eso fue lo que les llevó a actuar, según recoge The Washington Post.
Tras sacar cerca de 3,000 dólares canadienses en un cajero de un banco en Canadá, donde estaban, el matrimonio se dirigió a una segunda oficina para sacar más dinero. Pero en ese momento uno de los gestores del banco detuvo a la pareja y les explicó que habían vivido otro caso similar recientemente que cumplía el mismo patrón: una supuesta llamada de auxilio de un familiar. Fue en ese momento cuando ambos descubrieron que no era su nieto quien estaba al teléfono, sino que los estafadores habían conseguido replicar su voz utilizando la tecnología de la inteligencia artificial para intentar quedarse con su dinero.
No es el único caso en el que se ha empleado una voz clonada a través de inteligencia artificial para suplantar una identidad y cometer estafas. The Wall Street Journal recogió en 2019 el caso de una compañía energética que recibió una llamada falsa de su CEO pidiendo una transferencia de $243,000 dólares. También en 2020 varios estafadores clonaron la voz del director de otra compañía para intentar hacerse con 35 millones de dólares, asegura Forbes.
La inteligencia artificial aprende a imitarnos a partir de muestras de nuestra voz y horas de entrenamiento
Te hemos ya hablado de cómo la inteligencia artificial, en concreto la tecnología del deepfake, permite crear videos manipulados a partir de videos reales en los que se sustituye la cara, el cuerpo o la voz de una persona. Estas herramientas se han utilizado, por ejemplo, para replicar la voz de cantantes como Lady Gaga o Ariana Grande y hacer versiones de temas que en realidad nunca han cantado.
Otro de los ejemplos más conocidos en Estados Unidos de esta técnica es el deepfake que se viralizó en 2021 del actor Tom Cruise jugando golf. Desde entonces la cuenta @deeptomcruise publica videos que simulan al actor en distintas actividades. Y no todos advierten que en el propio nombre del usuario de TikTok se lee “deep”, de deepfake; que también se lee que usan la tecnología de la empresa Metaphysic.ai para crear avatares, y que en la bio se define como “parody and younger!”(“parodia y más joven”).
Para que la máquina sea capaz de imitar a estas cantantes y actores famosos se utilizan pistas con una buena calidad de audio en las que solo se escuche su voz y se entrena a la inteligencia artificial durante varios días hasta que consigue reproducir el timbre y las características de los artistas. Pero, ¿cómo es posible que los timadores pudieran recrear la voz del nieto de Ruth Card y Greg Grace?
Roberto Carreras, fundador de Voikers, una consultora española especializada en el desarrollo de proyectos de inteligencia artificial conversacional, nos explica cómo funciona esta tecnología. “Las voces creadas con inteligencia artificial se desarrollan enseñándole a una máquina cómo hablamos, nuestro lenguaje”, dice el experto.
Para ello es necesario transformar el sonido a una representación visual que la inteligencia artificial sea capaz de interpretar. “La máquina transforma el sonido en un espectrograma de MEL (un tipo de visualización de las ondas sonoras adaptada a la forma que tenemos de escuchar los humanos) y después estudia cómo nuestra voz se sitúa dentro de este espectro. Copiando esos rangos es como aprende a hablar como hablamos nosotros”, detalla Carreras.
Esta tecnología aún está lejos del alcance de los estafadores, según los expertos, pero hay que ser conscientes de la posibilidad
Este procedimiento se puede emplear para varios propósitos, como la generación de voces sintéticas a partir de combinaciones de diferentes grabaciones para dar lugar a una voz nueva o la clonación de una voz en específico. Es el ejemplo de VALL-E, un modelo de lenguaje realizado por Microsoft que permite imitar el habla de una persona a partir de 3 segundos de grabación, según asegura la propia desarrolladora, que también advierte que esta tecnología podría emplearse de forma fraudulenta para suplantar otras identidades.
“Si haces un video en TikTok con tu voz, ya es suficiente [para clonarla]”, dice a CBS News Hany Farid, profesor de Análisis Forense Digital de la Universidad de California. Una grabación de tu voz en un buzón de mensajes también bastaría para clonarla, añade.
Pero Carreras llama a la calma y afirma que esta tecnología aún está lejos del alcance de los estafadores. “Nadie puede utilizar VALL-E con absoluta libertad, hay que recibir una aprobación de la compañía”, argumenta el experto, que detalla que este modelo ha necesitado de más de 60,000 horas de audio para poder desarrollarse. Un despliegue que solo está al alcance de grandes empresas tecnológicas, afirma.
Estos modelos aún están lejos de imitar a la perfección la complejidad del lenguaje, asegura el experto. “Al final la voz forma parte de nuestra personalidad, y no sólo por lo que contamos, sino por cómo lo contamos. La prosodia, la forma de entonar… por mucha calidad que este modelo tenga, hay un punto en el que estas voces suenan raro”, afirma Carreras.
Esta es una tarea que se complica en el español ya que hay menos proyectos y modelos entrenados en este idioma. “Prácticamente nadie puede copiar tu voz con solo unos segundos. Se hacen cosas, pero de mala calidad. Es difícil que esa voz pueda servir para tener una conversación por teléfono”, declara el fundador de Voikers, que afirma que en sus proyectos han sido necesarias más de 20 horas de grabación para poder tener resultados de calidad. Por eso, el experto considera que de momento hay que estar “tranquilos” y que aún no es un timo viable a gran escala: “Es lógico que vayamos viendo estafas de este tipo y serán más frecuentes. Pero si la comparamos con otro tipo de estafas que vemos día a día, ocupan un número ínfimo”.
Consejos para evitar ser víctima de una estafa a través de voces clonadas
Carreras dice que si durante la llamada pasa mucho tiempo entre una pregunta y una respuesta, debes sospechar, porque esta tecnología no es capaz de generar respuestas en tiempo real. Además, en caso de dudas, puedes hacer preguntas personales que sólo tus conocidos sean capaces de responder.
Por otra parte, la FTC (Comisión Federal de Comercio, en español) y el FBI dan algunas recomendaciones para que sigas en caso de que recibas esa llamada inesperada de un “conocido” pidiéndote dinero:
1- No confíes en la voz.
2- Llama al número que sabes que sí pertenece a la persona que supuestamente te contactó para verificar la historia.
3- Si no puedes ponerte en contacto con la persona, contacta a un familiar o amigo para corroborar la historia.
4- Desconfía si te piden que envíes tu dinero por transferencia, en criptomonedas, o en gift cards.
5- No des información personal, como fecha de nacimiento, Número de Seguridad Social (SSN), o información financiera durante la llamada sospechosa.
Puedes denunciar ante la FTC este tipo de estafas en español haciendo clic aquí.
Factchequeado es un medio de verificación que construye una comunidad hispanohablante para contrarrestar la desinformación en Estados Unidos. ¿Quieres ser parte? Súmate y verifica los contenidos que recibes enviándolos a nuestro WhatsApp +16468736087 o a factchequeado.com/whatsapp.
Lee también: