Недавно «Яндекс» обновил один из своих антиспам-алгоритмов АГС, предназначение которого — бороться с засильем бесполезных и созданных исключительно с целью монетизации сайтов.
После обновления сообщество вебмастеров пришло в неимоверное возбуждение. Топики на тему нового алгоритма собирают тысячи комментариев, статьи с исследованиями причин, из-за которых накладывается фильтр, появляются одна за другой и тоже удостаиваются множества пользовательских комментариев. При этом большая часть последних — это откровенно хейтерские высказывания в адрес «Яндекса». В чём только его не обвиняют — и в предвзятости, и в фильтрации хороших сайтов заодно с плохими, и в стремлении достичь показателей по антиспаму в преддверии годового отчёта :-). Без преувеличения, большая часть комментариев наполнена обидой на «Яндекс» и придирками к тем, кто пытается обратить внимание на главные причины срабатывания алгоритма. И это касается не только тех комментаторов, что понесли финансовые потери, но и нейтральных с финансовой точки зрения вебмастеров.
На мой взгляд, причины такой реакции кроются в том, что мало кто понимает, как на самом деле работает этот (да и некоторые другие) алгоритм поисковых систем. Создаётся впечатление, что обычный вебмастер, прочитав сотни комментариев расстроенных манимейкеров, также пропитывается ненавистью к несчастному поисковику. К сожалению, «Яндекс» не публикует популярных статей на эту тему, а самостоятельно разобраться в научных публикациях дано не каждому. Здесь я попробую восполнить этот пробел, в том числе на примерах из своего опыта работы в «Яндексе», в отделе поискового антиспама.
Итак, для начала разберёмся с сутью этого алгоритма и с причинами его появления на свет. Для этого необходимо сделать экскурс в историю SEO-оптимизации в рунете.
Если кратко, то в 2006 году, после появления уникальной на тот момент биржи ссылок, стало возможно зарабатывать немаленькие деньги именно на продаже ссылок со своих сайтов. Конечно, у многих возник соблазн автоматизировать процесс создания новых площадок, что привело к росту количества некачественных сайтов, созданных исключительно под продажу ссылок (некоторое время до 40% регистрации .ru-доменов проводилось с целью создания и монетизации сайтов на ссылочных биржах).
Действие алгоритма заключается в том, что сайт, на который накладывается данная санкция, практически полностью исчезает из базы поисковика. В индексе остаются лишь главная страница и несколько самых популярных внутренних. Первая версия алгоритма АГС-17, увидевшая свет в 2009 году, резко снизила привлекательность подобного рода деятельности, удалив множество страниц с платными ссылками из индекса поисковой системы. Дальнейшие модификации алгоритма — АГС-30 и недавно АГС 40 — ещё сильнее ударили по владельцам манимейкерских сеток.
Перед тем как перейти к деталям работы алгоритма, стоит уяснить: всё, что делается на стороне антиспама «Яндекса», делается во благо пользователей, и ни один алгоритм, который значительно ухудшает метрику пользовательского «счастья», никогда не будет «зарелизен» и выпущен в продакшен. Именно поэтому на полностью забаненные и удалённые из индекса сайты даётся ссылка в результатах поиска по доменному имени. Точно так же при наложении санкции, ограничивающей количество страниц сайта в базе поисковика, обязательно оставляются главная и несколько других самых популярных страниц. Ведь всегда есть ненулевая вероятность того, что пользователь может захотеть вернуться на самый неинтересный сайт, с самым вторичным контентом. Ложные срабатывания антиспам-алгоритмов часто вызывают массу негативных эмоций у пользователей, поэтому требования к этим алгоритмам с точки зрения наличия False Positives очень и очень суровые.
Возвращаясь к алгоритму АГС, подумаем, как «Яндекс» может понять, что сайт неинтересен пользователям.
Для этого ответим на вопрос, какими данными о сайте располагает поисковая система. Очевидно, что это данные о посещаемости и поведении пользователей на сайте, о количестве, качестве и составе входящих и исходящих ссылок, о контенте сайта, о домене и хостинге, о том, как ищут этот сайт в поисковых системах. В принципе, этих данных достаточно, чтобы придумать несколько десятков факторов, характеризующих интересность сайта с точки зрения пользователя. Это и естественная посещаемость, и наличие платных ссылок, авторство и качество контента. Есть и менее очевидные факторы, которые иногда показывают замечательные результаты. Например — факт, что если вебмастер покупает ссылки, то он должен отслеживать их индексацию поисковой системой. Для этого ему нужно проверять наличие страницы со ссылкой в индексе с помощью расширенного языка запросов, включающего оператор «url:». Получается, что сайт, созданный только под ссылки, будет иметь показы в результатах поиска преимущественно по таким запросам, и их количество тем больше, чем больше сайт продаёт ссылок. Не проверять индексацию оптимизаторы не могут, поэтому повлиять на существование такого фактора у них нет возможности. Конечно, есть множество куда менее очевидных, но тоже весьма эффективных сигналов, которые выявляют низкокачественные сайты, созданные исключительно с целью монетизации.
Далее поисковой системе необходимо понять, какие сочетания факторов характеризуют плохие сайты, а какие — хорошие. Здесь разумно использовать машинное обучение. Для этого необходима выборка плохих и хороших сайтов, чтобы было на чем обучаться. Такие выборки, как правило, составляются руками самих аналитиков или специально обученных людей — асессоров. В итоге после обучения на выходе имеем формулу расчёта меры «плохости» каждого сайта, в которой для каждого фактора подобран коэффициент, показывающий, насколько он влияет на конечный результат.
Безусловно, есть группы сайтов, для которых даже руками сложно проставить правильные оценки. Например, аккуратно оформленные сайты со вторичным контентом или нормальные, но плохо структурированные площадки, очень активно продающие ссылки. В таких пограничных случаях поисковики, как правило, принимают решение встать на сторону пользователя и не накладывать санкции на сайт.
После запуска алгоритма очень важно получить фидбек от вебмастеров. К сожалению, большинство обращений в службу поддержки в таких случаях — это письма от недовольных манимейкеров, чей бизнес в очередной раз страдает, поэтому полезную информацию приходится отбирать буквально по крупицам. При обнаружении сайта, который не следовало наказывать, санкция снимается и сайт добавляется в обучение. Таким образом, ошибочное наложение санкций хоть и бывает, но постепенно, с течением времени, формула дорабатывается так, чтобы свести количество ошибок на нет.
Наблюдая за несколькими итерациями алгоритма АГС, первые из которых пришлись ещё на то время, когда я работал в «Яндексе», я вижу что заработок создателей сеток сайтов под продажные ссылки сильно упал и ссылочные бюджеты перераспределились в сторону более качественных проектов. О том, хорошо это или плохо, чем рунету грозит бездумное вкладывание бюджетов на оптимизацию сайтов в ссылки и планирует ли «Яндекс» пытаться как-то изменить ситуацию, поговорим в следующей статье.
*Сателлит — спам-сайт, предназначенный для монетизации или продвижения других сайтов.
** СДЛ — «сайт для людей». Термин стал набирать популярность у манимейкеров после первой большой чистки в 2009 году.