Anatomía de un intento de vishing: Cómo engañé a una IA que intentaba suplantar a mi jefe

Eran las 09:42 de un martes lluvioso en mayo de 2026 cuando mi teléfono de escritorio, una línea SIP que pocas veces suena, rompió el silencio en la oficina. En el identificador de llamadas aparecía el nombre de "Miguel Álvarez", Director Financiero de nuestra empresa. La llamada no provenía de su móvil habitual, sino de una extensión interna que, en teoría, sólo debería ser accesible desde la sede central. Sin embargo, yo estaba en la oficina de Santiago, y Miguel se suponía que estaba en Madrid.

La urgencia en su tono fue inmediata. "Eduardo, necesito esa transferencia al proveedor de software ahora mismo. El sistema está a punto de caerse y necesito la liquidez desbloqueada en los próximos diez minutos o perdemos el contrato". El contexto sonaba plausible; habíamos estado discutiendo la migración de nuestro ERP toda la semana. Pero había algo en la textura de la voz, una cualidad casi imperceptible, que activó todas las alarmas de mis veinte años de experiencia en infraestructura.

No colgué. No dije que sí. Inicié un protocolo de forensic audit en tiempo real mientras fingía buscar la cartera de inversiones. Lo que sucedió en los siguientes tres minutos fue una batalla entre un modelo de lenguaje generativo avanzado y un administrador de sistemas paranoico. Aquí está el desglose técnico de cómo detecté que aquello no era mi jefe, sino una simulación.

La paradoja de la nitidez: Artefactos en el espectro de alta frecuencia

El primer indicio no fue lo que el "falso Miguel" dijo, sino cómo sonaba el silencio entre sus palabras. En una telefonía IP estándar, incluso con códecs de alta calidad como Opus o G.722, existe un ruido de fondo ambiental inherente: el zumbido del aire acondicionado, el tráfico lejano, el eco de sala. La voz que escuchaba era demasiado limpia. Era una limpieza agresiva, típica de un post-procesamiento de cancelación de ruido aplicado por software, no del micrófono de un teléfono Polycom en una oficina concurrida.

Mientras él repetía la instrucción de transferir fondos a la cuenta bancaria terminada en 4091 —un número que, casualmente, no coincidía con el proveedor habitual—, me acerqué a mi estación de monitoreo y lancé un análisis espectral rápido sobre la señal de audio entrante.

Detalle fotográfico relacionado con Anatomía de un intento de vishing: Cómo engañé a una IA que intentaba suplantar a mi jefe

Lo que vi en el espectrograma confirmó mis sospechas. Las consonantes oclusivas, como las /p/ y /b/, presentaban una falta de transición espectral natural. En una voz humana biológica, la transición entre una vocal y una consonante explosiva crea un "formante" específico que varía según la posición de la lengua y la apertura de la mandíbula. En esta llamada, esas transiciones eran suaves, casi planas. La IA había generalizado la fonética, eliminando las imperfecciones microscópicas que hacen que una voz humana sea, irónicamente, humana.

Además, noté un artefacto conocido como "anillo pre-silencio". Justo antes de que Miguel empezara a hablar, había un corte digital de milisegundos que eliminaba el ataque transitorio de la respiración. Los modelos actuales de clonación de voz, a pesar de haber mejorado drásticamente en privacidad y capacidad de razonamiento comparado con versiones anteriores como GPT-4 o Llama 3, todavía luchan por generar los ruidos fisiológicos involuntarios que preceden a la fonación. La IA inhala antes de hablar porque el algoritmo predice que debe hacerlo, pero el sonido es una muestra insertada, no una función orgánica de la necesidad de aire.

Inyección de caos lógico para romper el guion del bot

Si bien el análisis de audio era sospechoso, no era prueba suficiente para denunciar un fraude a seguridad corporativa sin causar un pánico innecesario. Necesitaba una prueba funcional. Los atacantes utilizan scripts de ingeniería social optimizados para la velocidad y la presión. Dependen de que la víctima no piense, solo actúe. Para contrarrestar esto, utilicé una técnica de "inyección de caos".

Interpuse al interlocutor con una pregunta fuera de contexto que requería memoria episódica y un juicio moral, no solo datos recuperados de un correo electrónico filtrado.

—Miguel, antes de autorizar el movimiento, recuerda que el viernes comentamos en la cafetería sobre el problema con la factura del servidor en Alemania. ¿Quieres que use ese mismo código de referencia para esta transferencia emergente?

Esta es una variante clásica de una prueba de Turing invertida. Un humano respondería con confusión, pediría aclaraciones o diría "¿De qué factura hablas? ¿Estás loco?". Un modelo de IA entrenado para asistir en tareas financieras o transcripcionales suele entrar en un bucle de cumplimiento para mantener la coherencia del objetivo principal (la transferencia).

La respuesta fue reveladora. Hubo una pausa de aproximadamente 850 milisegundos —una latencia típica del procesamiento de texto a voz en la nube— y luego dijo:

—Sí, usa el mismo código. No pierdas tiempo, Eduardo.

El fallo aquí fue doble. Primero, aceptó una premisa falsa inmediatamente para evitar el bloqueo del objetivo. Segundo, no captó el tono emocional de mi recordatorio. Mi jefe real habría detectado la rareza de mencionar un "código de referencia" de una factura alemana en medio de una emergencia de liquidez. La IA predijo la siguiente palabra más probable para avanzar hacia la acción deseada ("sí", "hazlo"), ignorando la incoherencia lógica de la propuesta. Es el mismo tipo de fallo que vemos cuando las IAs cometen errores de alucinación al programar código SQL: construyen una sintaxis correcta basándose en una estructura lógica rota.

Validación por canal secundario y autenticación criptográfica

Con el 99% de certeza de que estaba ante un vishing de alta tecnología, activé el protocolo de defensa en profundidad. No podía simplemente colgar; si cortaba la comunicación, el atacante podría intentar contactar a otro empleado con menos preparación técnica. Tenía que mantener al agente ocupado mientras verificaba por canales secundarios.

Le dije a la voz: —El sistema está pidiendo una autenticación de dos factores que tengo que sacar del correo. Dame un minuto, me quedo en la línea.

En cuanto silencié el micrófono, abrí nuestro chat interno cifrado (Signal) y escribí a Miguel: "¿Me estás llamando por SIP para una transferencia urgente?". La respuesta llegó en tres segundos: "No. Estoy en una reunión con el consejo. ¿Qué pasa?"

Caso cerrado. Pero quería entender el alcance del ataque. Volví a la línea y, simulando frustración, pregunté: —Miguel, el banco está rechazando la transacción porque el IBAN no coincide con el registro SEPA del proveedor. ¿Seguro que es la cuenta 4091?

La "IA" intentó corregirse, pero su programación para evitar la confrontación la traicionó de nuevo.

—Es una cuenta de respaldo. Forza la transferencia manualmente.

Aquí cometió un error técnico fatal. Nuestra plataforma bancaria empresarial no permite la transferencia manual forzada a cuentas nuevas sin una aprobación biométrica en la app móvil, algo que el sistema de voz desconocía o decidió ignorar. Esto demuestra que, aunque los chatbots de atención al cliente modernos han mejorado enormemente en comprender la intención, estos modelos maliciosos específicos están optimizados para la ejecución de un único objetivo (la transferencia) y carecen del modelo del mundo necesario para navegar las excepciones operativas complejas.

El coste de la paranoia y el futuro de la identidad

Una vez finalizada la llamada, registré el incidente. El número SIP utilizado había sido suplantado mediante una técnica de "toma de control de registro" en un gateway VoIP mal configurado en una de nuestras sucursales antiguas. Los atacantes no solo tenían la voz clonada; habían comprometido nuestra infraestructura telefónica básica para hacer que el identificador de llamadas fuera legítimo.

Este incidente cambió mi perspectiva sobre la seguridad en la empresa. Hasta ese momento, confiábamos en que la "familiaridad" era una capa de seguridad: reconocer la voz de tu jefe era suficiente. En 2026, ese supuesto es un suicidio profesional.

Hemos implementado desde entonces una política de "Zero Trust Voice". Cualquier solicitud de acción financiera o cambio de credenciales crítica hecha por teléfono, aunque sea la voz de nuestra propia madre, requiere un contrafase en un canal asincrónico diferente (email o chat firmado). Ya no importa cuánto te conozco o cuánto parezcas mi jefe; si no puedo verificarlo criptográficamente fuera de la llamada, la acción no existe.

Lo más aterrador no es la calidad de la voz, que ya es indistinguible al oído promedio, sino la capacidad del sistema para mantener el contexto de la conversación bajo presión. La frontera entre humano y sintético ha dejado de ser acústica para pasar a ser puramente lógica y de comportamiento. La próxima vez que recibas una llamada urgente, no escuches las palabras; escucha los silencios, busca las transiciones imposibles y, sobre todo, verifica el origen. Porque en el futuro, la autenticidad no se demuestra hablando, sino probando.

Anatomía de un intento de vishing: Cómo engañé a una IA que intentaba suplantar a mi jefe

La paradoja de la nitidez: Artefactos en el espectro de alta frecuencia

Inyección de caos lógico para romper el guion del bot

Validación por canal secundario y autenticación criptográfica

El coste de la paranoia y el futuro de la identidad

Lee a continuación

Llama 3 On-Premise vs GPT-4: ¿Vale la pena el coste de infraestructura?

¿Los chatbots de atención al cliente basados en IA realmente entienden la intención o solo predicen palabras?