«Выручай, срочно нужно 500 долларов». Реально ли подделать голос человека и обмануть его близких? Журналисты стали «телефонными мошенниками»

24 декабря 2024 в 1735031280
Onliner

«Дружище, выручай, срочно нужно 500 долларов, послезавтра отдам», - голосовым сообщением в своей привычной манере сообщает ваш приятель. После короткой переписки вы соглашаетесь перевести деньги на указанную карту: свои же люди, как-никак. А спустя пару часов голос того же друга рассказывает: «Меня взломали, надеюсь, ты ничего не переводил». С развитием искусственного интеллекта, нейросетей и дипфейков сценарий такой аферы кажется все более реальным. В то же время многие до сих пор считают голос уникальным идентификатором - сродни отпечатку пальца, хотя это давно не так в эпоху, когда каждый школьник из TikTok уже научился заставлять Кадышеву читать рэп как Эминем. Разбираемся, как наш голос могут использовать для обмана близких, и заодно сами вживаемся в роль мошенников.

«Процесс изменения голоса становится доступнее»

Про новую преступную схему, где мошенники при помощи ИИ имитируют голоса совершенно случайных людей, в 2024 году активно писали российские медиа. Предполагаемый алгоритм действий аферистов такой: взламывается аккаунт жертвы в мессенджере, скачиваются найденные в переписках голосовые сообщения, а дальше дело за нейросетью, которая, просканировав образцы речи, выдает новые войсы. Добавить к этому личную информацию, выуженную из тех же переписок, - и получится настолько убедительный дипфейк, что даже лучшие друзья без сомнений одолжат крупную сумму «на срочную оплату штрафа, до завтра».

На днях появились новости, что жертвами подобной аферы стали даже знакомые министра культуры Казахстана. В Беларуси, по мнению экспертов провайдера телекоммуникационных, ИКТ- и контент-услуг A1, к которым мы обратились за помощью при подготовке материала, подделка голосовых сообщений - это пока что редкий и сложный мошеннический сценарий. В нашей стране аферисты в основном используют отработанные схемы во время телефонных звонков.

- Наиболее распространенные легенды - это все-таки «звонки близких, попавших в беду»: автомобильные аварии, различные нарушения с задержанием правоохранительными органами и тому подобное. Всегда в таком случае «близкий» будет просить деньги для срочного «решения проблем». Обычно такие звонки носят преувеличенно эмоциональный характер, в разговоре звучит информация о том, что «родственник» получил травмы и находится в сильном стрессе. Эта ложь в том числе используется как аргумент, почему голос не слишком похож, - рассказали в центре кибербезопасности A1.

Выдыхать пока рано: скорее всего, распространение схемы с фейковыми голосовыми в Беларуси - это всего лишь вопрос времени. И лучше разобраться в нем заранее, пока обработка жертв не набрала обороты, а арсенал подручных средств преступников не стал слишком широким.

- В настоящее время с развитием нейросетей появилось и появляется достаточно много инструментов для изменения голоса с помощью ИИ. Этот процесс становится доступнее: создается очень много бесплатных продуктов, обучающих видео. Это все можно отнести к так называемым дипфейкам. Получить образцы голоса мошенники могут не только путем взлома аккаунтов в мессенджерах, но и через известные всем звонки «от службы безопасности вашего банка», мнимых «операторов связи», «следственных органов» или выдуманных компаний, проводящих соцопросы, - рассказывают эксперты центра кибербезопасности A1.

«70% людей не уверены, могут ли отличить сгенерированный голос от настоящего»

В попытках собрать информацию о реальных кейсах использования мошенниками поддельного голоса в Беларуси мы также обратились в Следственный комитет. Представители органов лишь коротко сообщили, что на данный момент у них нет в разработке ни одного уголовного дела, в материалах которого бы присутствовали голосовые дипфейки.

В то же время в СК подчеркнули: это не отрицает существования в стране подобных схем обмана, просто в каждом конкретном случае нельзя с полной уверенностью сказать, имело место применение ИИ или же психологические манипуляции. Жертвы телефонных аферистов часто утверждают, что голос звонившего «был очень похож» на голос родственника, однако, как правило, потом допускают, что внушили себе это сами.

Некоторой международной статистикой в прошлом году делилась компания - разработчик антивируса McAfee. Ее исследователи опросили более 7 тыс. человек в семи странах и выяснили, что четверть из них сталкивались с каким-либо видом голосового мошенничества с использованием ИИ. 77% жертв преступников после этого потеряли суммы в размере от 1000 долларов. В то же время 45% взрослых респондентов заявили, что отреагировали бы на голосовое сообщение от родственника, друга или любимого человека, в котором он просит деньги.

И это притом что около 70% людей даже не уверены, могут ли отличить сгенерированный голос от настоящего.

Эксперты McAfee утверждают: для создания более-менее убедительной копии достаточно трехсекундной записи голоса человека. Покажете искусственному интеллекту еще парочку таких же - и сможете получить почти идеального двойника. А учитывая то, что 53% взрослых делятся своими голосовыми данными в сети (да, личные переписки тоже считаются) хотя бы раз в неделю, собрать аудиоархив для мошенников не представляет такого уж большого труда.

Что ж, на время организуем прямо в редакции импровизированный скам-центр и проверим, как это работает на практике.

Эксперимент: подделываем голоса коллег при помощи нейросетей

Мы проводили эксперимент с целью информирования, своими действиями мы не призываем повторять подобное в реальной жизни и со злым умыслом.

Названия и подробные описания принципов работы использованных ИИ-инструментов намеренно опущены.

Все люди, голоса которых были использованы в рамках эксперимента, дали согласие на их обработку и публикацию.

Беглый поиск в интернете выдал с десяток сервисов на основе ИИ, предлагающих быстро и сердито заговорить голосом Геральта из Ривии или спеть как Леонид Агутин. Увлекательно, но все не то: друзья и коллеги вряд ли поверят, что звезда слезно просит у них занять $ 500 на погашение кредита (хотя, допускаем, случается и такое). Уточнив запрос, получаем около трех доступных сайтов с голосовыми «нейронками» - отдаем финальное предпочтение почти наугад, ориентируясь на отзывы.

Довольно быстро выясняется, что наше «мошенническое» предприятие все-таки потребует финансовых вложений: функционал бесплатных версий слишком уж ограниченный, а результат работы - смехотворно-разочаровывающий. Использовав единственную попытку загрузки образца своего голоса, получаем лишь возможность начитать им небольшой текст. Исковерканное перепутанными ударениями и роботизированным звоном сообщение не вызывает ни грамма доверия.

Хотя кто-то из коллег кивнул: голос узнается, на нервах, на бегу и с шумом на фоне шанс повестись есть. Ну, вот и первый обнадеживающий результат, и звоночек.

Оплачиваем (недорогую!) расширенную месячную подписку и открываем доступ к чему-то более интересному.

Во-первых, сервис предлагает набор из нескольких десятков готовых голосовых моделей, которые в пару кликов можно наложить на вашу запись. Интонации - на любой вкус: дикторские, разговорные, ASMR. Никаких акцентов и признаков «гугл-войса»: ваши фразы буквально переговаривает голос другого человека, идеально попадая во все нюансы вашего голоса. Во-вторых, есть возможность создать целых 30 своих клонов - для каждого хватит и одной короткой записи. Но, понятное дело, чем больше разных образцов вы загрузите, тем точнее будет модель. «Скармливать» нейросети все аудио даже не обязательно сразу, можно добавлять по мере их появления.

Потенциальных «жертв» эксперимента мы тайно выбираем из числа сидящих прямо за соседними столами коллег. И тут же спотыкаемся о неожиданное открытие.

Оказывается, в редакции нет привычки регулярно записывать друг другу голосовые сообщения (ненавистники войсов одобрительно хмыкнули): все важные вопросы по-журналистски решаются текстом. Поэтому за основу приходится брать записи из архивов нашей студии подкастов. Отдаем ИИ случайные фрагменты озвучек без всякой обработки: скорее всего, реальные мошенники, получив доступ к данным, тоже работали бы с тем, что есть, долго не церемонясь.

Вот это, например, образец голоса Даши, который мы использовали для быстрого обучения нейросети и создания клона:

Записываем тестовое сообщение, которое должен будет переозвучить виртуальный двойник:

И после обработки, занявшей не более 10 секунд, получаем вот такой результат:

Придраться есть к чему, но и невозможно отрицать, что получилось до жути похоже. По крайней мере, абсолютное большинство коллег, прослушавших запись, даже зная об эксперименте, с круглыми от удивления глазами подтвердили: «Это однозначно Даша». Скептики ловили искусственный интеллект на промахах и звуковых артефактах, но в конце концов тоже сдавались: «Ну-у-у… если бы ты не предупредил, я бы поверил».

Идем дальше и генерируем жалобное сообщение, которое особо изощренные мошенники могли бы разослать, например, со взломанного аккаунта кого-нибудь из друзей Даши по всем общим контактам:

Мы так, конечно, делать не будем, но эксперимента ради планируем по очереди отправлять войс нескольким людям, которые не в курсе происходящего.

К сожалению (но если бы это был реальный случай, то к счастью), «афера» накрывается почти сразу: одна из коллег пишет настоящей Даше с уточнением, все ли в порядке. Тем не менее отмечаем еще одного человека в списке поверивших. Ну и, собственно, раскрываем все карты перед Дашей, заодно получая подтверждение и от нее самой: да, голос похож.

В качестве еще одного образца берем голос Тараса, который обнаружился в той же папке с дублями, не вошедшими в один из выпусков подкаста:

Слушаем переозвученную клоном тестовую запись:

Получилась гораздо менее ювелирная работа, чем в случае с Дашей. В редакции сошлись во мнении, что Тарасу нужно было бы совершенно иначе поставить свой обычный голос, чтобы начать разговаривать вот так. Впрочем, несколько попыток поиграть с интонацией и тембром привели к довольно близкому к идеальному результату. Лже-Тарас выслал с аккаунта настоящего Тараса голосовое его второй половинке с короткой просьбой сбросить денег - девушка лишь уточнила зачем, но подвоха в голосе не заметила.

После еще нескольких проб и ошибок пришли к очевидному, но все-таки выводу: реальные аферисты, скорее всего, будут использовать дипфейковые сообщения лишь для первичной верификации. Мол, привет, это точно я - а все подробности и уловки уже текстом. Чем короче такое голосовое, тем меньше у жертвы шансов заметить подвох. Что-то похожее для нас записал ИИ-дублер руководителя SMM-отдела Валеры, чей голос мы по частям похитили из роликов в Instagram.

Коллеги настоящего Валеры признались: вычислили подделку только по нетипичным для него формулировкам фраз. Повода расслабляться это, конечно, не дает: преступнику ничего не мешает послушать имеющиеся голосовые из взломанной переписки, сымитировать манеру общения и немного поговорить на нейтральные темы перед тем, как перейти к разводу. Скопировав голоса еще нескольких людей, мы записали войсы с фразами, уместными в их диалогах, а также нейтральными предложениями типа пойти на кофе вечером - и разослали знакомым.

Шок: пять из пяти «подопытных» не заметили, что с ними общается кто-то другой.

Так, с качественными примерами аудио все понятно, но насколько успешно нейросеть справится с голосом, записанным во время недолгого телефонного разговора? Заметно хуже, но все-таки справится. Дальше свое дело сделают постобработка, наложенные фоновые шумы и все то же психологическое давление. Не самый обнадеживающий итог нашей затеи, с которым согласились все участвовавшие: кажется, даже сгенерированной «на коленке» записи может хватить, чтобы взять в оборот запуганного старшего родственника.

Как вести себя с мошенниками: базовая памятка, чтобы обезопасить себя и близких

Будьте внимательны к неожиданным или непривычным просьбам от близких в мессенджерах. Если вам пишет приятель, родственник или коллега и просит денег под любым предлогом, будьте настороже. Не доверяйте сразу, даже если он прислал сообщение с кажущимся знакомым голосом. Уточните у него отсутствующую в недавней переписке информацию, которую может знать только настоящий человек. Попытайтесь позвонить ему на известный номер (хотя в отдельных случаях мошенники могут «занимать линию», чтобы вы этого не смогли сделать), уточните у общих знакомых, не пришли ли и им похожие сообщения.
Не поддавайтесь панике. Мошенники часто используют давление и вызывают чувство срочности, чтобы вы приняли решение быстрее. Даже если кто-то описывает вам полную катастрофу, спокойно узнайте детали, желательно с помощью вопросов, на которые правильно ответить сможет только реальный человек. На самом деле, деньги крайне редко нужны настолько срочно, чтобы счет шел даже на часы, а несколько лишних минут, потраченных на уточнения, точно «погоды не сделают».
Попросите дополнительную верификацию. Если вероятный мошенник довольно складно излагает легенду, а дозвониться до человека по каким-то причинам невозможно, попросите, например, записать видеокружок в мессенджере. У настоящего знакомого, просящего о помощи, вряд ли найдутся причины этого не сделать.
Не отвечайте голосовыми сообщениями. Даже если вы точно уверены, что разоблачили мошенника, не пытайтесь вступать с ним в долгий контакт, провоцировать и даже строгим тоном справедливо угрожать милицией. После такого образцы вашего голоса уже могут быть использованы в обмане близких.
Используйте кодовые слова. Они наверняка помогут убедиться, что вы разговариваете с настоящим человеком. Конечно, о кодовом слове, которое можно использовать в экстренных ситуациях, придется заранее договориться с семьей или друзьями. И точно стоит сделать это при личной встрече, а не в переписке.
Проиграйте вышеописанные сценарии с пожилыми родственниками. Самостоятельно изготавливать дипфейки и устраивать стресс-тест бабушке, конечно, не стоит. Но уж точно не будет лишним уточнить, как бы она поступила, получив в Viber войс, где внук срывающимся голосом твердит про какую-то аварию. Договоритесь, как будете действовать с обеих сторон в случае реального ЧП.