Скрытое богатство Twitter

Несколько дней назад социальная сеть Twitter объявила о намерении разместить акции на бирже. В отличие от стартапов, которым дозволено жить на средства инвесторов, от публичных компаний ожидают если не прибыли, то хотя бы стремления её получить. На чём будет зарабатывать Twitter? Этот вопрос давно вызывает споры аналитиков. Одним из потенциальных источников дохода, вероятно, будет реклама. О другом источнике говорят реже, хотя он тоже немаловажен.

Кто покупает ваши 140 знаков

Создатели сервиса микроблогов давно осознали, что сидят на золотой жиле. Они видят, что волнует сотни миллионов пользователей в разных частях света прямо сейчас. Они видят, как сообщения волнами расходятся по социальному графу. Они видят, как колеблется амплитуда этих волн, реагируя на внешние события.

Twitter представляет собой уникальный источник информации о том, что происходит в мире, обновляющийся в реальном времени. То же самое можно было бы сказать и о других социальных сетях, но у Twitter есть особенность, которая даёт огромное преимущество именно в этой области: подавляющее большинство постов в микроблогах публичны, общедоступны и анонимны. Их можно анализировать, не вторгаясь в частную жизнь пользователей и не вызывая недовольства.

Социальная сеть уже несколько лет предоставляет платный доступ к полному потоку публикуемых в ней сообщений. Многие из них имеют легкомысленное содержание, но это не играет роли: тех, кто просеивает данные из Twitter, как правило, интересует не смысл постов, а настроения, которые они отражают.

Ценность данных, получаемых таким образом, давно не нуждается в доказательствах. С их помощью не без успеха прогнозируют колебания биржевых показателей, следят за распространением эпидемий и стихийными бедствиями, оценивают перспективы политиков и эффективность телевизионной рекламы. Они позволяют с неплохой точностью определить, что происходит сейчас и что будет дальше.

Вряд ли стоит удивляться тому, что изрядная доля попыток извлечь смысл из потока сообщений в Twitter непосредственно связана с биржевой торговлей. Трейдеры изобретали модели, позволяющие прогнозировать колебания курсов, задолго до появления первых социальных сетей. Они экспериментировали с самыми различными источниками данных и, разумеется, не могли проигнорировать Twitter.

Пару лет назад специалисты из Мюнхенского технического университета опубликовали работу под названием «Твиты и сделки: информационное содержание биржевых микроблогов». Она описывала результаты шестимесячного эксперимента, во время которого анализу подвергались 250 тысяч постов в день, публикуемых в блогах биржевой тематики. С помощью средств анализа тональности текста исследователи делили твиты на пессимистичные и оптимистичные, а затем вычисляли «среднее настроение». Оказалось, что колебания индекса Standard & Poor’s 500, отражающего капитализацию пятисот крупнейших американских компаний, повторяют изменения настроений в Twitter, которые были зафиксированы днём раньше.

Похожее исследование опубликовали в 2010 году учёные из университетов Манчестера и Индианы, но они не отбирали сообщения биржевой тематики, а просеивали все твиты подряд. Кроме того, при семантическом анализе их интересовал не столько позитивный или негативный настрой твита, сколько чувства, которые он передаёт. Такой подход оказался не менее эффективным. Исследователи сумели выделить в анализируемых сообщениях факторы, которые верно предсказывали, куда направится индекс Dow Jones через несколько дней, в 87,6% случаев.

В 2011 году хедж-фонд Derwent Capital воспользовался методом, предложенным в этой работе. Компьютерная система, используемая компанией, искала в потоке сообщений из Twitter слова, соответствующие спокойному настрою. В Derwent Capital рассматривали изменение количества таких слов как признак изменений, которые произойдут с Dow Jones в ближайшие шесть дней, и реагировали соответственно. В течение первого же месяца работы по такой схеме фирма обошла показатели других хедж-фондов.

Другая известная публикация в этой области принадлежит исследователям из HP Labs. В 2010 году им удалось выработать математические модели, позволяющие с поразительной точностью предсказывать кассовый успех фильмов на основании упоминаний в Twitter. Исходными данными для анализа послужили 2,9 млн сообщений, оставленных 1,2 млн пользователей Twitter в течение трёх месяцев.

Первая модель, разработанная в HP Labs, учитывала количество кинотеатров, где прокатывается фильм, и частоту, с которой название фильма встречалось в Twitter перед премьерой. Этих данных оказалось достаточно для того, чтобы оценить потенциальные кассовые сборы каждого фильма за первую неделю проката. Точность прогноза составила 97,3%.

Другая модель предсказывала результаты второй недели проката. Если успех премьеры в значительной степени объясняется рекламой, то затем начинает работать «сарафанное радио». Это значит, что на вторую неделю важно знать не только количество упоминаний, но и контекст, в котором они появляются. Чтобы предсказать кассу второй недели с точностью в 94%, модель принимала во внимание количество положительных и отрицательных твитов.

Этот метод годится и для других целей. В начале 2012 года компания Globalpoint Research подсчитала количество упоминаний американских политиков в Twitter и обнаружила, что эта информация позволяет с высокой точностью предсказывать результаты праймериз, на которых Республиканская партия США выбирала кандидата в президенты.

Работа, опубликованная специалистами из Университета Индианы несколько месяцев назад, подтверждает эту оценку. Они рассмотрели зависимость между шансами кандидата в президенты США на успех и частотой, с которой его имя появляется в Twitter. Связь оказалась прямой: результаты на выборах коррелировали с количеством упоминаний. Есть, правда, одно «но»: выяснилось, что твиты о кандидате, который уже занимает государственный пост, несколько менее значимы, чем о его конкурентах. То же самое можно сказать о политиках, которые по какой-то причине попали в центр внимания СМИ. Если учитывать частоту упоминаний таких кандидатов с понижающим коэффициентом, то прогноз оказывается точнее.

Пользователи Twitter вечно на что-нибудь жалуются, но из этого, как ни странно, можно извлечь пользу. Почти все корпоративные средства для работы с социальными сетями содержат встроенные инструменты, позволяющие вылавливать негативные отзывы о компании и её продуктах. Это помогает куда быстрее и точнее определять реакцию людей на действия компании.

Для жалоб есть и другие применения. Исследователи из Университета Рочестера проанализировали 3,8 млн твитов, оставленных 94 тысячами пользователей из Нью-Йорка, а затем отметили на карте города рестораны, фастфуды и забегаловки, от которых, судя по жалобам в Twitter, лучше держаться подальше. Любопытный момент: их результаты оказались близки к данным, которые городские власти получают более традиционными методами.

В Японии сходный проект был начат корпорацией Fujitsu. Правда, объектом интереса послужили не угрожающие пищеварению предприятия питания, а преступность. В Fujitsu разработали систему, которая перебирает сообщения из Twitter и отыскивает среди них те, в которых говорится о происшествиях. Затем она классифицирует информацию и в реальном времени делает отметки на карте. Согласно исходному замыслу, прохожие будут использовать постоянно обновляющуюся карту преступности для того, чтобы обходить опасные кварталы стороной.

Другой японский проект — под названием XRAIN — использует алгоритмы машинного обучения для того, чтобы скомбиниовать информацию из социальных сетей и данные об атмосферных явлениях, полученные с помощью радара. Компьютерная система постоянно ищет в интернете свежие посты с упоминанием стихийных бедствий, а затем изучает учётные записи их авторов для того, чтобы определить возможные координаты бедствия и оценить достоверность сообщения. Испытания показали правильность такого подхода: система сигнализировала о бедствиях на три часа раньше, чем аналоги, не учитывающие активности в социальных сетях.