La capacidad de la inteligencia artificial para generar voces y vídeos que se hacen pasar por personas ha dejado de ser una curiosidad técnica para convertirse en un riesgo operativo para las organizaciones. La madurez de los modelos de voz generativa ha desplazado la detección desde el típico “suena a robot”, hacia la identificación de patrones algorítmicos difíciles de percibir en situaciones de presión.
Según Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), los ataques más efectivos se presentan en escenarios cotidianos (una llamada urgente, un supuesto aviso bancario, una videollamada improvisada) en los que el personal no siempre sabe qué observar ni cómo comprobar la autenticidad en el momento.
Para afrontar esta nueva y peligrosa amenaza se hace necesario un cambio en el enfoque, empezando por la percepción auditiva. La mayoría de los intentos de engaño fallan menos en la textura del timbre que en cómo discurre la conversación: entonaciones planas o con saltos improbables, pausas uniformes o colocadas donde la gramática no las pide y latencias de respuesta sospechosamente regulares.
La clave ya no es detectar un timbre artificial, sino analizar la prosodia y los tiempos de respuesta para distinguir la huella algorítmica de una simple mala conexión. En redes deficientes, el sonido fluctúa y el desfase entre audio y vídeo es errático; en contenidos sintéticos, los “fallos” tienden a repetirse con una consistencia que no se explica por el ancho de banda.
En videollamada, la vista ayuda más que el oído: Curto recomienda fijarse en microseñales del rostro y del entorno (frecuencia de parpadeo, sombras e iluminación, detalles en cabello y orejas), que delatan incoherencias no atribuibles a la compresión. El lipsync perfecto no es garantía: movimientos “flotantes” o detalles que aparecen aplanados son indicios más útiles.
Para un contraste en directo, resulta eficaz “romper la inercia” del modelo: pedir la repetición de una frase inesperada, introducir ruido contextual (como una palmada o teclear cerca del micrófono) o interrumpir de forma breve para forzar cambios en la entonación. Si persisten las cadencias antinaturales o las latencias constantes, el siguiente paso no es seguir conversando, sino verificar.
Así, ante la duda debe activarse un callback a un número verificado del CRM y utilizarse una palabra clave acordada previamente como segundo factor vocal. Este enfoque se resume en una combinación de escepticismo humano, verificación por un canal alternativo y reducción de la huella pública de la propia voz.
Herramientas de detección y marcas de agua, útiles pero con límites
En el plano tecnológico, la detección automatizada progresa, aunque quienes engañan también disponen cada día de mejores herramientas. Existen clasificadores forenses que analizan rasgos acústicos (artefactos espectrales, prosodia) y se comparan mediante bancos de prueba como ASVspoof, cuyos conjuntos de referencia permiten entrenar y evaluar detectores.
Cuando la clonación de voz se realiza con modelos distintos a los usados en el entrenamiento, las tasas de error aumentan. También hay soluciones orientadas a medios, como herramientas de verificación editorial que combinan señales sintéticas con comprobación contextual, pero con precisiones no públicas y riesgo de falsos positivos en audios muy comprimidos o ruidosos. Los detectores integrados en plataformas comerciales tienden a ser fiables sobre su propio audio, aunque no siempre generalizan bien a generadores de terceros.
Las marcas de agua, por su parte, aspiran a etiquetar en origen el contenido generado. AudioSeal (Meta) inserta señales imperceptibles que permiten identificar incluso partes alteradas, con disponibilidad pública en repositorios de código. Sin embargo, su eficacia se deteriora con compresión, cambios de tono o reverberación, aumentando los falsos negativos en posprocesados adversarios.
SynthID (Google) se ha planteado como marca multimodal que busca mantenerse detectable tras ediciones como recortes o compresión y que se está extendiendo a audio y texto.
Más allá de detectar, la prevención empieza por la gestión de la exposición de la voz. Curto sugiere políticas de consentimiento y privacidad estrictas (no compartir grabaciones sin propósito definido y exigir consentimiento para cualquier análisis biométrico), revisar asistentes domésticos y desactivar el almacenamiento continuo.
En autenticación, se recomienda incorporar factores adicionales basados en palabras de seguridad contextuales y rotativas (“frases anti-deepfake”) que un atacante no pueda anticipar.
La huella vocal pública debe acotarse: limitar la publicación de audios largos y nítidos y, si se difunden, reducir el bitrate o añadir música de fondo. También existen tecnologías de anulación por ruido (dispositivos o software que interfieren con micrófonos), con coste, alcance limitado y posibles restricciones legales.
En materia de investigación, se está explorando el introducir distorsiones imperceptibles para el oyente humano que confundan a los algoritmos que intentan extraer una huella vocal robusta.
Cuando la llamada implica pagos, contraseñas o cambios urgentes, el orden propuesto por Curto se articula en tres pasos: primero, confirmar quién habla mediante verificación humana y contextual apoyada en la palabra de seguridad; la revisión de esa respuesta debe recaer en una persona o, como mínimo, en un sistema secundario no automatizado.
En segundo lugar, y si persiste la duda, romper el guion y cortar la interacción con naturalidad para realizar una devolución de la llamada a un número verificado que conste en los registros internos, evitando devolver la llamada al número entrante. Este cruce de canal desarma muchos intentos, ya que obliga al estafador a controlar también el canal alternativo.
Tercero, y si no hay validación, cerrar la conversación con una frase de seguridad, registrar hora, origen aparente y señales observadas (por ejemplo, prosodia plana al responder la clave o latencias constantes) y escalar al equipo de ciberseguridad o al departamento legal.



