(Depositphotos)

por STEFANO CASINI

Con apenas 3 segundos de grabación, los cyber delincuentes puedan clonar una voz humana con IA. Es la nueva modalidad que, por ahora poco en Uruguay, están adoptando los estafadores siglo XXI para sus fechorías.

Con una pequeña muestra de audio, pueden clonar la voz de “casi” cualquier persona y dejar mensajes falsos en un buzón de voz o enviar audios por mensajería. El objetivo es, en la mayoría de los casos, engañar a la gente para que les den cientos, o incluso miles, de dólares. De unas 7000 personas encuestadas, una de cada cuatro, dijo que había sido víctima de una estafa de clonación de voz, o conocía a alguien que lo había hecho. Por otro lado, una de las empresas anti fraude más grande del mundo como McAfee Labs descubrió que es muy fácil poder llevarlo a cabo, sin problemas. Breve grabación de la voz junto a un guión bien elaborado por el ciber-delincuente y la estafa está hecha, de forma convincente. Según una encuesta global de McAfee, el 70% dijo que no estaban seguros al intentar distinguir entre una voz clonada y una voz real. Se concentran en un tipo de mensajes concretos. Mensajes urgentes y llenos de angustia. Utilizan una herramienta de clonación para hacerse pasar por un amigo o familiar de la víctima con un mensaje de voz sobre un accidente de coche, o dicen que les robaron, o que están heridos. De cualquier manera, en el mensaje falso siempre dicen que necesitan dinero inmediatamente. Este tipo de estafa  ya demostró ser muyefectiva. Una de cada diez personas encuestadas en este estudio dijo que ha recibido un mensaje de un clon de voz con IA, y el 77% de esas víctimas dijo que perdieron dinero. Los porcentajes son asombrosos y de las personas que reportaron pérdidas de plata, el 36% dijo que perdió entre 500 y 3,000, mientras que el 7% perdió sumas de entre 5,000 y 15.000 dólares.

Para estos delincuentes no les resulta demasiado difícil conseguir archivos de voz originales para clonarlas. Según  la encuesta, el 53 % de los adultos dijo que compartenregularmente sus datos de voz en línea o en notas grabadas, al menos una vez por semana. El 49 % lo hace hasta diez por semana. La actividad delictiva genera grabaciones de voz que pueden ser objeto de pirateo, robo o acabar siendo compartidas, accidentalmente o intencionadamente. Las personas publican normalmente videos de sí mismas en YouTube, TikTok y otras apps y simplemente con acceso a fuentes relativamente públicas, los delincuentes disponen de un arsenal con suficiente material para estafar y mucho. Casi la mitad de los encuestados dijeron que responderían a un mensaje de su buzón de voz o a un audio si creen que se trata de un amigo o un ser querido que necesita plata, especialmente si piensan que la solicitud procede de su pareja (40 %), madre (24%) o hijo (20%). Para entender la magnitud del problema, la encuesta hizo preguntas específicas y respondieron que reaccionarían con facilidad a la estafa en caso de un accidente de tráfico (48%), si fue víctima de un robo (47%) y si perdió su teléfono o cartera o si necesita ayuda estando en otro país por ejemplo (41%).

Estos ataques denominados “spear phishing”, se dirigen a personas específicas y dan información muy concreta, suficientemente creíble como para responder positivamente a un pedido de dinero. La información se consigue por los perfiles públicos de redes sociales y otros lugares de Internet donde las personas publican sobre sí mismos, sus familias, sus viajes, etc. Estos datos son más que suficientes para sacar provecho. Las formas de pago son distintas, pero los suelen pedir formas difíciles de rastrear o recuperar, como tarjetas regalo, transferencias bancarias, tarjetas de débito recargables o criptomonedas. Si te piden utilizar este tipo de pagos, ni contestes, en un 99% es una estafa o, seguramente, hay algo sospechoso.

Un conocido programa español llamado EL HORMIGUERO, hizo unas pruebas con este tipo de estafas y los resultados fueron alarmantes. Luego de escuchar a algunos familiares muertos por teléfono con la voz clonada, entre gritos y lágrimas, muchas mujeres confesaron su asombro durante el show. Una participante, entre lágrimas dijo: “Lo he sentido super real y me hacía falta, me hacía mucha falta”. Otra  dijo: “Es que la voz es clavada, muy contenta por la experiencia”, secándose las lágrimas. El programa de Pablo Motos, un “talk-show” muy seguido en la madre patria, había aprovechado la IA para recrear, partiendo de audios reales, la voz de personas muertas o personalidades y hasta líderes políticos. La reproducían, lo que provocó problemas de desinformación por el uso de llamados “Deepfakes”. Reprodujeron, por ejemplo la voz del Presidente USA Joe Biden o el líder laborista de Inglaterra Keir Starmer. Los audios generados apuntaban a sugestionar los participantes, sin embargo, la idea fue brillante, porqué el programa alcanzó uno de los mayores picos de audiencia en la historia de España

También en China, este negocio  crece a través de varias compañías que declaran haber creado miles de personas digitales o bots fantasmas. Algunos canales dijeron que les alcanzarían solo 30 segundos para reproducir la voz e imagen de un muerto. Socorro!!