Seguro que han visto el siguiente anuncio de una conocida cerveza española.
Para quien no lo sepa, Lola Flores falleció el 16 de mayo de 1995 y nunca grabó ese anuncio. ¿Cómo se hizo, entonces? Con inteligencia artificial, utilizando técnicas de deepfake (acrónimo formado por las palabras «fake», falsificación, y «deep learning», aprendizaje profundo) para recrear su imagen y voz a partir de material histórico. Aunque el resultado fue impactante en 2021, las tecnologías actuales permiten creaciones muchas más realistas.
Los primeros deepfake utilizaban algoritmos de aprendizaje no supervisados y vídeos o imágenes reales de la persona. Viendo el siguiente vídeo lo comprenderán:
Pero los algoritmos ha evolucionado, permitiendo la creación de rostros de personas que no existen.
La compañía norteamericana Nvidia mostró en 2019 los resultados de generación de rostros con lo que llaman «Generative Adversarial Networks» (GAN), una técnica que ha evolucionado desde entonces, permitiendo deepfakes multimodales, combinando voz, vídeo y gestos con mayor coherencia temporal.
La empresa Ziva Dynamics (ahora parte de Unity Technologies) presentó ZRT Face Trainer, una aplicación capaz de generar animaciones faciales de altísima calidad. En 2025, permite crear personajes realistas en menos de una hora, gracias a su base de datos de escaneados en 4D y más de 72.000 formas de caras, integrándose con motores como Unreal Engine para aplicaciones en videojuegos y cine.
Los algoritmos permiten crear personas con apariencia real. Aplicaciones como Midjourney, DALL-E 3 o Stable Diffusion ofrecen interfaces sencillas para generar modelos a partir de una simple descripción de texto.
No solo la imagen, también se puede replicar la voz. En la industria cinematográfica se ha hecho uso de esta tecnología en más de una ocasión. En el documental «Roadrunner» (2021) sobre la vida del chef Anthony Bourdain, tras suicidarse en 2018, crearon réplicas digitales con los registros de voz que tenían del protagonista para producir el audio que el director necesitaba para acabar el documental.
Lo mismo hicieron en «Top Gun: Maverik» (2022) con la voz de Val Kilmer, simulada con inteligencia artificial a partir de registros antiguos de voz del actor, pues este no podía hablar tras sufrir un cáncer de garganta.
En el Salvador Dalí Museum de San Petersburgo en Florida (Estados Unidos) existe una exposición permanente de obras de Dalí, cuya presentación la hace el propio Dalí, creado a partir de unos 6.000 fotogramas existentes de entrevistas suyas. La novedad no solo es que, a partir de esta tecnología se pueda mostrar al pintor como si estuviera vivo, sino que, además, se le dota de capacidades para interactuar con el público.
Los deepfakes de voz amenazan a sectores tan consolidados como el del doblaje en España. Las principales asociaciones de locutores se han unido en la Plataforma de Asociaciones y Sindicatos de Actores de Voz de España (PASAVE) para proteger a los profesionales de la voz del impacto de la inteligencia artificial. El problema es que se están utilizando las voces de locutores y actores para alimentar y entrenar sistemas de inteligencia artificial. Dicha plataforma recomienda, en un comunicado, que sus asociados incluyan en sus contratos una cláusula de salvaguarda para impedir que se use su voz, modulación, timbre o interpretación para alimentar, entrenar, simular o realizar acciones similares en programas o proyectos de inteligencia artificial, robótica, videojuegos o cualquier otra metodología que utilice o transforme la voz e interpretación grabada originalmente.
La preocupación no es exclusiva de nuestro país. United Voice Artists (UVA) es una agrupación de asociaciones y sindicatos de profesionales de la voz con presencia en veintidós países. Su objetivo es participar en la toma de decisiones para establecer normativas que regulen el uso de la inteligencia artificial para proteger los derechos de propiedad intelectual de los artistas de la voz a partir del consentimiento explícito de los artistas e intérpretes de voz.
Scarlett Johansson demandó a Convert Software por usar su imagen y voz en un anuncio sin consentimiento. El anuncio, de la app «Lisa AI: 90s Yearbook & Avatar», duraba 22 segundos y mostraba una versión IA de Johansson diciendo: «¿Qué pasa chicos? Soy Scarlett y quiero que vengáis conmigo», seguido de promoción generada por IA. El anuncio fue retirado tras la demanda, y su abogado manejó el caso legalmente, aunque no se detalló un veredicto final. En 2024, Johansson tuvo otro conflicto con OpenAI por una voz similar a la suya en ChatGPT, resuelto con la retirada de la voz.
Scarlett Johansson demandó a Convert Software por usar su imagen y voz en un anuncio sin consentimiento. El anuncio, de la app «Lisa AI: 90s Yearbook & Avatar» incluía una versión generada por inteligencia artificial de la voz de actriz. El anuncio, que fue retirado tras anunciarse la demanda, tenía una duración de 22 segundos y en él se mostraba la imagen de Scarlett Johansson, pronunciando con la voz de la actriz el siguiente mensaje: «¿Qué pasa chicos? Soy Scarlett y quiero que vengáis conmigo». Tras esto, se escucha la voz, generada por inteligencia artificial, decir: «No se limita solo a los avatares. También puedes crear imágenes con textos e incluso vídeos de tu IA. No deberías perdértelo».
Riesgos y peligros
Tom Hanks también fue víctima de un deepfake. El actor denunció públicamente que usaron su imagen para promocionar una clínica dental. En realidad, no existía ninguna clínica, tan solo querían robar los datos personales de aquellas personas que se interesaban por los servicios de la clínica (inexistente).
A través de herramientas de inteligencia artificial como ElevenLabs se puede clonar la voz de cualquier persona. Un ejemplo son los audios, creados con dicha herramienta, de la actriz Emma Watson, que se vio recitando falsamente pasajes del «Mein Kampf» de Adolf Hitler. La plataforma ha fortalecido sus protocolos, requiriendo consentimiento y usando captchas de voz para clonar solo voces propias en modos de alta fidelidad.
Imaginen los usos maliciosos que se pueden dar con esta nueva tecnología, como llamadas falsas de un familiar o amigo reclamándoles ayuda económica ante una situación de angustia o desesperación. Según Hany Farid, profesor de ciencia forense digital en la Universidad de California en Berkeley, para clonar la voz de una persona «hace dos años, incluso hace un año, necesitabas mucho audio. Ahora si tienes una página de Facebook o si grabaste un TikTok y tu voz está allí durante 30 segundos, la gente puede clonar tu voz». Dependiendo de la herramienta que empleen, pueden bastar tres segundos de un audio original, que son los que necesita VALL-E de Microsoft para clonar una voz.
Este tipo de estafas se concentra en el ámbito empresarial. En septiembre de 2019, la revista Forbes informó que un alto directivo de una compañía de energía del Reino Unido había sido engañado con un deepfake de voz para sustraer a su empresa la cantidad de 243.000 dólares. Los estafadores, tras clonar la voz del director ejecutivo de la empresa matriz, consiguieron engañar a la víctima para que transfiriera dicha cantidad a una cuenta que, supuestamente, pertenecía a un proveedor húngaro.
En 2022, el jefe de comunicaciones de Binance, una plataforma de intercambio de criptomonedas, Patrick Hillman, reveló que había sido suplantado por un holograma creado con inteligencia artificial durante múltiples videollamadas. Según el ejecutivo, esta falsificación se utilizó para negociar distintos acuerdos sobre criptomonedas en la plataforma.
Otra conocida plataforma de intercambio de criptomonedas, FTX, también fue objetivo de ataques, tras su declararse su quiebra en noviembre de 2022. Un vídeo falso de su CEO, Sam Bankman-Fried, empezó a circular por las redes indicando que los perjudicados podrían acceder a una compensación si pinchaban en un enlace para acceder a una página web. En realidad, todo era parte de una estafa para robar datos y dinero de las víctimas. Un estudio realizado con 529 personas, publicado en Plos One, demuestra que las habilidades de los seres humanos no son infalibles a la hora de calificar si un mensaje de voz es verdadero o falso. El porcentaje de acierto fue del 73 %, esto es, uno de cada cuatro deepfakes tuvo éxito en el engaño.
El mencionado estudio concluye que «los humanos pueden detectar deepfakes del habla, pero no de manera consistente. Suelen confiar en la naturalidad para identificar deepfakes independientemente del idioma. A medida que los algoritmos de síntesis de voz mejoren y se vuelvan más naturales, será más difícil para los humanos detectar falsificaciones de voz». Para rematar formula una propuesta: «nuestros resultados sugieren la necesidad de detectores automatizados para mitigar las debilidades de un oyente humano. Sin embargo, estos detectores son frágiles y no funcionan cuando hay cambios en las condiciones ambientales del audio de prueba. Dada la magnitud de las limitaciones humanas y la creciente disponibilidad de recursos computacionales para implementar detectores, la investigación debería centrarse en mejorar estos detectores».
El mejor consejo para prevenir los deepfake es preguntar al interlocutor por algo que solo él pueda saber o acordar una pregunta clave y una respuesta única.
Al poco de la invasión de Ucrania por Rusia apareció un vídeo falso del Presidente de Ucrania –Volodímir Zelenski– en el que anunciaba la rendición de su país. En el vídeo, el falso Zelenski pedía a los ucranianos que depusieran las armas y se rindieran a las fuerzas rusas. En este caso, el engaño no estaba bien logrado, pero ¿y si lo estuviera?
El máximo mandatario de Corea del Norte, Kim Jong-Un, también tiene su deepfake, y no es el único político: un falso Obama, insultando a Donald Trump, Boris Johnson alabando a su rival Jeremy Corbyn y viceversa, etc.
En noviembre de 2023, un audio de WhatsApp se viralizó rápidamente. En él se escuchaba una voz que aparentemente era la de Martí Batres, gobernador de Ciudad de México, conspirando para afectar la candidatura de Omar García Harfuch, quien buscaba la candidatura del Movimiento de Regeneración Nacional. Batres negó rápidamente la veracidad del audio y aseguró que la grabación estaba manipulada con inteligencia artificial. Sin embargo, el debate estaba servido: ¿Puede la inteligencia artificial alterar un proceso democrático? La entonación, melodía, pausas, ritmo y velocidad de articulación son matices fundamentales para distinguir una voz real de una clonada. Estos elementos forman parte de la prosodia, que es uno de los aspectos más difíciles de replicar mediante inteligencia artificial.
Los deepfake también se crean para generar imágenes y vídeos pornográficos que, en muchos casos, se cuelgan en páginas de contenido para adultos o se difunden para desprestigiar a la víctima.
Software anti-deepfakes
El Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT ha creado «PhotoGuard», una herramienta que protege a las fotografías de manipulaciones. La técnica consiste en introducir en la imagen original información que resulta invisible al ojo humano, pero que interfiere completamente con la manera que tienen los algoritmos de analizar los píxeles de una fotografía para generar una nueva imagen. El resultado son deepfakes distorsionadas y poco realistas.

PhotoGuard es una técnica complementaria a la marca de agua. Mientras la primera tiene como objetivo impedir que la población utilice herramientas de inteligencia artificial para manipular imágenes, la marca de agua utiliza señales invisibles similares para permitir que se detecte el contenido generado por inteligencia artificial una vez que ha sido creado.
Otra herramienta es FakeCatcher de Intel, que analiza el flujo sanguíneo en píxeles de vídeos para detectar si el contenido es real, o no, en milisegundos, con una precisión del 96 %.
Conclusión
Tres agencias de seguridad americanas (NSA, FBI y CISA) publicaron un informe detallando las amenazas asociadas a los deepfakes, listando alguno de los peligros más relevantes: daño reputacional, suplantación de identidad y falsificación de las comunicaciones para ganar acceso a redes privadas.
El gran problema de los deepfakes es que pueden causar una profunda crisis de credibilidad en la población, de forma que nadie se fie de nada. Incluso pueden hacer que muchas personas acaben descartando hechos ciertos como falsos, tras aferrarse a la idea de que nada es verdad.
Aparte de los tribunales de justicia, espero que las futuras agencias nacionales de supervisión de la inteligencia artificial, como la AESIA, puedan controlar el uso de esta tecnología, porque el riesgo que corre nuestra sociedad es alto y el precio que puede que tengamos que pagar, de no controlarse su uso, será elevado.
Por el momento, siete empresas líderes en inteligencia artificial (Amazon, Anthropic, Google, Inflection, Meta, Microsoft y OpenAI) han suscrito un acuerdo con el Gobierno de Estados Unidos para ayudar a avanzar hacia un desarrollo seguro, protegido y transparente de la tecnología de inteligencia artificial.
En España, la Proposición de Ley Orgánica de regulación de las simulaciones de imágenes y voces de personas generadas por medio de la inteligencia artificial del Grupo Parlamentario Plurinacional SUMAR no culminó el proceso legislativo, pues el enfoque se centra en el Reglamento de Inteligencia Artificial.
Más información
Medidas legales contra los «deep nudes» (desnudos digitales)


