Исследователи из Microsoft нашли алгоритмы машинного обучения, которые лучше ловят мошенников в Skype

Исследователи нашли способ значительно сократить количество злоумышленников, пользующихся крадеными банковскими картами или рассылающие спам в Skype. Работа, опубликованная Мойзесом Голдшмидтом, Инлянь Се, Фан Юй и Мартином Абади из Microsoft Reseatch и Анной Леонтьевой из Тартуского университета, рассматривает применение для этой цели алгоритмов машинного обучения с учителем (supervised learning).

Исследователи анализировали 34 тысячи учётных записей из случайной выборки, содержащей 200 тысяч учётных записей Skype, которые не были заблокированы в течение первых четырёх месяцев после создания. Некоторые из этих учётных записей принадлежали обычным пользователям. Другими обладали мошенники, которые долгое время ускользавшие от внимания технологии антифрода, применяемой в Skype сейчас.

Взяв за основу сведения об обращениях пользователей друг к другу, исследователи построили ориентированный граф, состоящий из 677,8 миллиона вершин, соединённых 4,2 миллиарда дуг. Его дополняли 10,8 миллиона меток, отмечающих уже выявленных злоумышенников. Эти данные использовались сначала для обучения классификаторов, а затем для оценки эффективности их работы.

Чтобы автоматически классифицировать пользователей, потребовалось учесть массу факторов. В ход пошли данные из самых разных источников, в том числе сведения о самих пользователях (например, возраст, указанный в профиле), история действий, которые они предпринимали (примером может служить коммуникация с другими пользователями), локальная социальная активность (добавление или удаление пунктов в списке контактов) и глобальная социальная активность (её можно оценить при помощи алгоритма PageRank).

По отдельности каждого из этих факторов недостаточно для выявления злоумышленников. «Данные зачастую пестрят пробелами и содержат отсутствующие значения, — указывают авторы работы. — К тому же аномальные закономерности, связанные с атаками, могут проявлять себя в других местах». Однако если комбинировать несколько источников, то картина меняется. Эксперименты свидетельствуют, что чем больше факторов учитывают классификаторы, тем выше вероятность того, что подозрительный аккаунт будет замечен.

Как выяснилось, большинство учётных записей, рассылающих спам или связанных с крадеными банковскими картами, поначалу принадлежало честным пользователям, но затем они были взломаны и сменили владельца. В публикации высказывается предположение, что анализ продолжительных временных серий позволит заметить резкую перемену в поведении пользователя, указывающую на взлом.

Исследователям удалось добиться обнаружения 68% злоумышленников, научившихся обманывать существующую защиту Skype. Доля ложных срабатываний при этом не превышала 5%. Это значит, что количество мошеннических учётных записей, избегающих блокирования более десяти месяцев, сократится в 2,3 раза.