TIC Defense alerta sobre el Deepfake de audio | No todo lo que escuchas es cierto
Si te has preguntado con quién estás hablando realmente a través de tu teléfono, como es obvio, no solo se trata de ver el nombre o el número que aparece en la pantalla de tu smartphone. Además, si escuchas una voz desconocida cuando llaman desde un número telefónico que tienes guardado, ya la cosa no pinta nada bien y algo anda muy mal.
Para determinar con quién estás hablando, haces un análisis inconsciente del timbre de voz, la forma de hablar y de la entonación de las palabras. Sin embargo, ¿tu oído es fiable en esta era de la inteligencia artificial? Según los últimos datos disponibles, no puedes confiar siempre en lo que escuchas, debido a que las voces pueden falsificarse a través de deepfake de voz.
Uno de los principales temores de las empresas y de los usuarios en general, son las estafas. Por suerte, TIC Defense cuenta con el equipamiento de ciberseguridad necesario para cubrir estos riesgos y proteger tu organización de estos ataques, perpetrados por actores maliciosos. Nuestro personal desarrolla herramientas y soluciones altamente confiables y que se adaptan a tus necesidades.
¿Qué se entiende por deepfake?
La inteligencia artificial, llamada deepfake, ha tenido un crecimiento exponencial en los últimos años. Ha surgido a partir del aprendizaje automático o machine learning, el cual puede usarse para crear imitaciones convincentes de imágenes, audios o vídeos. Por ejemplo, las redes neuronales ahora pueden utilizar fotografías y vídeos para reemplazar el rostro de cualquier persona por otro, conservando las expresiones faciales y la iluminación de fondo.
Inicialmente, estas falsificaciones eran de baja calidad y muy fáciles de detectar, con la evolución de los algoritmos, los resultados se volvieron convincentes, a tal grado de que es muy difícil distinguirlos de la realidad concreta.
Para que te hagas una idea, en el 2022, se estrenó en Rusia el primer programa de televisión hecho por deepfake del mundo. En dicho programa, los fakes de Keanu Reeves, Margot Robbie, Jason Statham y Robert Pattison son los personajes principales.
Deepfakes de voz
Esta tecnología también se emplea para producir falsificaciones de voz. La conversión de voz se desarrolla a partir de codificadores automáticos, un tipo de red neuronal que. En primer lugar, comprime los datos de entrada en una representación compacta. Después, aprende a descomprimirlos desde la representación de entrada y así restarurar los datos originales.
De esta forma, el modelo de red neuronal aprende a presentar datos en un formato comprimido, al mismo tiempo que resalta la información más relevante. Los deepfakes de voz introducen 2 grabaciones de audio en el modelo, en donde la voz de la segunda grabación se utiliza para determinar qué es lo que se ha dicho en la primera grabación.
Luego, se emplea el codificador del orador, encargado de la extracción de las características de voz principales de la segunda grabación. En otras palabras, “habla” la segunda persona.
En los escenarios más pesimistas, el deepfake de voz en manos de ciberdelincuentes puede ser una arma peligrosa. Afortunadamente, hay muchas investigaciones sobre esto y las organizaciones se encuentran desarrollando múltiples soluciones de seguridad.
Si bien estas investigaciones y desarrollos están comenzando, lo cierto es que esta nueva forma de estafar, es un tipo de ingeniería social avanzada, con un riesgo de que seas víctima de fraude y extorsión mínimo o considerable, pero no olvides de que existe.