Cómo desenmascarar una llamada generada por IA: «Nuestra voz es un rasgo biométrico que tenemos que proteger»

Tamara Montero
Tamara Montero SANTIAGO / LA VOZ

ACTUALIDAD

iStock

Cada vez es más sencillo crear «deepfakes», pero hay una serie de medidas de seguridad para evitar estos engaños

10 nov 2025 . Actualizado a las 13:31 h.

Aunque no todo el mundo lo tiene presente, el avance de la inteligencia artificial es tal que casi todos los meses hay novedades en las experiencias con imagen, vídeo y generación de audio y voz. Por eso es importante generar una conciencias sobre la necesidad de tener herramientas que permitan distinguir lo que es real de lo que está generado mediante IA. Como la voz.

«Desafortunadamente, generar una voz artificial es cada vez más barato». Lo advierte Josep Curto Díaz profesor de los estudios de Informática, Multimedia y Telecomunicación de la UOC. Por eso, y como medida estándar, tener en cuenta una serie de detalles que permiten discernir si la voz al otro lado del auricular es humana o se ha generado sintéticamente.

Entre los trucos que se pueden utilizar para desenmascarar una voz generada con IA está el hecho de que el discurso no fluye de manera natural y las emociones no estén bien ubicadas en el discurso. También es importante prestar atención a las pausas, ya que pueden aparecer fuera de tiempo. «No se trata de un corte de red o un problema de señal, se percibe algo», explica Curto. La intuición suele avisar de que algo extraño ocurre.

En el caso de las videollamadas, es posible percibir desajustes entre el movimiento de los labios y la voz, así como microgestos extraños, una mirada fija, movimientos extraños... «Tenemos que fijarnos en la llamada, pero también en el contexto y en lo que dice». afirma el profesor de la UOC. Estas son cinco señales que pueden ayudar a desenmascarar un deepfake

1. Prosodia no natural y entonación plana

La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.

2. Artefactos espectrales (metal, clics finales)

Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.

3. Desajuste labios-voz en videollamada

Retraso constante o microanomalías (labios que flotan sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños

Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.

5. Latencia sospechosa

Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en escupir la respuesta completa; la red deficiente provoca latencias irregulares y avisos de conexión inestable.

Vale que la intuición es importante, pero nunca viene mal tener un protocolo de algún tipo para asegurarse de que quien llama es una persona. «El punto de partida es verificar quién llama», dice Curto. Puede utilizarse una palabra de seguridad acordada entre las partes.

Como se trata de sistemas generados por IA, que siguen unos patrones y se puede jugar a romper. Al recibir una llamada del banco la verificación es tan sencilla como colgar y llamar uno mismo, pero ante la llamada de un familiar, el mecanismo puede ser enviar un mensaje por otro canal que ambos usen habitualmente, como WhatsApp o Telegram, y así verificar que efectivamente es esa persona la que llama. 

«Si no hay validación, hay que cortar, hay que frenar la llamada y luego hay que contactar con nuestra familia o la entidad» para que se activen los protocolos de seguridad que sean necesarios ante una posible clonación de la voz. 

Y ya no se trata solo de descubrir que la llamada que se recibe es falsa, sino de proteger la nuestra para evitar que sea clonada con inteligencia artificial. «Nuestra voz es un rasgo biométrico que tenemos que proteger», subraya Curto.

La gestión de la huella vocal es algo fundamental. «Yo, por ejemplo, suelo salir en radio y televisión y tengo vídeos que uso en la universidad, con lo cual existen mi voz y mi cara grabadas, así que podrían usarla para crear un deepfake». Por eso usar mecanismos de seguridad detallados es muy importante, como tener claras las políticas de lo que se graba y lo que se comparte.

La voz no debe darse libremente sin tener en cuenta dónde se va a usar y cuál es el propósito de ese uso. «Hay que tener muy claro el consentimiento para grabar y analizar la biometría vocal y también revisar cómo usamos los asistentes y su letra pequeña» para que, por ejemplo, no escuchen y graben continuamente lo que se está diciendo.

Josep Curto también recomienda activar autentificación multifactor y usar códigos y frases de seguridad que solo nosotros conocemos. «Debe ser inesperada, contextual. Por ejemplo, cosas como cuál es la palabra del martes. Algo que realmente solo puedes recordar tú».

¿Qué pasa cuando las empresas avisan de que van a grabar tu voz? «En general, lo hacen para tener evidencia de lo que ha ocurrido. En esos casos, yo me aseguro de activar otros mecanismos», es decir, que haya una doble validación. «Aunque alguien pudiera robar mi voz de los sistemas de información de estas empresas, no podría usarla porque hemos puesto en marcha otros mecanismos». 

Lo cierto es que, como con otro tipo de datos personales, «nos toca estar muy atentos a la seguridad de nuestros datos y los derechos que tenemos como ciudadanos», así como estar al tanto de la regulación que protege. «No nos podemos quedar como actores pasivos, sino que tenemos que tener el conocimiento para seleccionador a los proveedores que nos ofrezcan seguridad», subraya. 

La tecnología de clonación de voz existe desde hace muchos años y también tiene usos que son positivos. Por ejemplo, puede ser una herramienta útil para personas que han usado mucho la voz durante su vida, como actores, presentadores y cantantes. «Si pierden la voz o pueden hablar poco, esto les da un mecanismo adicional para recuperar la comunicación con sonido», dice el profesor de la UOC. 

El propio Josep Curto genera píldoras de conocimiento en el contexto de su labor docente. Hay días en los que la inspiración fluye y otros en los que lamentablemente, no. «Si me he clonado a mí mismo, esas píldoras de conocimiento que a veces quiero compartir con los estudiantes puedo generarlas muy rápidamente», explica. Es decir, ayuda a la generación de contenidos que están vivos y deben ser actualizados continuamente.

Esos vídeos generados siguen siendo un reflejo del profesor aunque se esté usando un avatar sintético y una voz clonada. «Máxima transparencia», advierte el profesor sobre este tipo de vídeos. Hay que advertir siempre que se trata de un avatar sintético y de una voz clonada, ambas cosas curadas por el docente.