В Университете штата Иллинойс в Чикаго разработан новый алгоритм, который позволяет вычислять целые группы людей, занимающихся публикацией «проплаченных» комментариев о тех или иных компаниях или продуктах — в блогах, на форумах или в соответствующих секциях в интернет-магазинах.
Собственно, такие «подсадные» комментаторы ничем особо не отличаются от банальных спамеров. Исследование, получившее название «Выявление организованных групп рецензентов-фальсификаторов в секциях потребительских отзывов», частично спонсируется Google; один из авторов этого исследования и алгоритма GSRank (Group Spam Rank), созданного на его основе, — штатная сотрудница поисковой компании.
В принципе, у Google имеется прямая заинтересованность в возможности идентифицировать (и отстреливать на дальних подступах) спам такого рода. А его в последнее время развелось много — особенно на фоне роста популярности таких социальных ресурсов, как Yelp и TripAdvisor, где большая часть контента — как раз отзывы, написанные рядовыми пользователями Сети. Ну или не совсем рядовыми.
Алгоритм GSRank опирается на следующие параметры:
- Временной промежуток — предполагается, что все члены группы «клакеров» свои отзывы разместят за очень ограниченный период
- Предвзятость — насколько отзывы предполагаемых спамеров отличаются от «среднестатистических» рецензий
- Сходство контента — есть все основания ожидать, что спамеры будут публиковать примерно одно и то же, в одних и тех же выражениях и ставить одни и те же оценки — максимальные или минимальные
- Принцип «в первую голову» — спамеров, по мнению разработчиков алгоритма, выдаёт их стремление написать отзывы в первых рядах — особенно если «работодатель» поставил задачу поднять или опустить рейтинг какой-либо продукции
- Размеры предполагаемой группы «клакеров»
- Повышенная групповая активность — спамеры будут бросаться всей кучей на ту продукцию или тот ресурс, за работу по которым им заплатили
GSRank не позволяет выяснить, действует ли именно группа накрутчиков (или «ронятелей») рейтингов той или иной продукции или это один и тот же персонаж, меняя аккаунты, старается создать иллюзию «общественного мнения». Впрочем, это не так уж и важно: вопрос состоит в том, чтобы выявить определённые поведенческие паттерны, а не установить поимённо безобразничающих лиц.
Применение этого алгоритма чрезвычайно сильно не помешало бы некоторым сетевым изданиям в Рунете, где постоянно бесчинствуют тролли с активной гражданско-политической позицией. Другой вопрос, сколько этот алгоритм даёт «ложных срабатываний».