Определить ключевые точки лиц на фотографиях, классифицировать цифры, написанные от руки, распознать тему 60 тысяч изображений, проанализировать возможный сценарий выживания «Титаника», проследить нейронные связи по флюоресцентным снимкам активности нервных клеток — с сервисом Kaggle аналитиков данных ждёт масса увлекательных задач.
Kaggle — интернет-платформа, помогающая объединиться математикам и коммерческим компаниям, желающим эффективно применять статистические данные. Более 150 тысяч статистиков и дата-майнеров, участники сообщества Kaggle, соревнуются за денежные вознаграждения от нескольких долларов до трёх миллионов.
Список клиентов компании впечатляет: среди них General Electric, Facebook, NASA, Microsoft, Ford, Tesco, фармацевтические компании Merck, Boehringer и Pfizer, несколько нефтегазовых компаний.
Работает Kaggle следующим образом: компания формулирует задачу, где решение или оптимизация подразумевает анализ данных, определяет приз для победителя и сроки, затем отдельные аналитики или команды берутся за проект и предлагают свои лучшие идеи и разработки. Компании остаётся лишь выбрать и наградить победителя.
Изначальная идея состояла в том, что любой желающий на основе набора данных, предоставленных бизнесом, может предложить идею или решение по рационализации процессов, причём никто не будет оценивать образование, квалификацию и резюме участников, а только лишь эффективность идеи. Лучшие статистики сражаются за первые места в открытом списке лидеров, что подогревает интерес участников. На доске лидеров множество русских имён, кроме того, хватает бразильцев и – традиционно — индусов. На сайте Kaggle есть форум, где участники обмениваются идеями и советами, обсуждают ошибки и наработки, ищут команду или партнёров для совместной работы и, конечно, жалуются на превратности судьбы.
Создатели Kaggle гордятся тем, что Facebook доверила им свой рекрутинговый проект: компания разыскивает потенциальных сотрудников, наблюдая за ходом конкурсов. Facebook уже трижды использовала Kaggle в качестве полигона для испытания будущих штатных аналитиков данных. В последнем конкурсе аналитики взялись за базу данных сервиса вопросов и ответов Stack Exchange. Задача состояла в том, чтобы по заголовку и формулировке вопроса определить теги или ключевые слова для каждого тикета.
Самый крупный приз за время существования Kaggle, $3 млн, предлагала медицинская компания Heritage Provider Network за создание алгоритма, который позволил бы на основе имеющихся медицинских записей найти пациентов, находящихся в группе риска, чтобы компания могла проактивно предложить им профилактическую программу.
В одном из последних конкурсов Kaggle перед участниками стояла задача создать алгоритм, предсказывающий, где, когда и насколько серьёзная вспышка гриппа произойдёт в выбранный период времени. Заказчик, компания Genentech, занимающаяся биотехнологиями, поставила на кон $120 тыс.
Для General Electric Kaggle ведёт постоянный проект по оптимизации траекторий полёта коммерческих самолётов с целью сокращения расхода топлива и задержек рейсов. GE заказала разработать настраиваемый алгоритм, который предоставляет пилоту информационную характеристику полёта в реальном времени, позволяющую ему более эффективно управлять ходом выполнения рейса.
На момент написания статьи Kaggle проводит 13 конкурсов, причём только в половине из них борьба идёт за денежное вознаграждение, в других в качестве приза предлагаются «знания» — то есть работа будет делаться бесплатно ради ценного опыта, а победитель специального конкурса с пометкой «swag» получит iPad Air. Судя по числу конкурсов без вознаграждения, для многих денежный приз не главное.
В феврале 2013 года на сайте начался конкурс, в котором победителя ждёт трудоустройство в Walmart, американский ритейлер с крупнейшей в мире розничной сетью. Соискателям предоставляются данные продаж 45 магазинов в различных регионах, и задача состоит в том, чтобы спрогнозировать объёмы продаж в каждом отделе каждого магазина. Интересно, что в задании в числе параметров для анализа есть данные о температуре в данной местности, ценах на бензин, уровне безработицы, специальных предложениях сети, а также выходных и праздничных днях. Известно, что праздники, такие как Рождество или День благодарения, влияют на продажи, но в каких отделах магазина продажи вырастут, а в каких — упадут? При подведении итогов конкурса за верные прогнозы на праздничные недели начислят в пять раз больше очков. Желающих работать с одним из крупнейших в мире набором данных хватает: в конкурсе участвует 231 команда.
На волне популярности добычи сланцевого газа в США, набирающей обороты уже несколько лет, в Kaggle открыли отдельное направление, специализирующееся на решениях в области энергетики. Компания взялась за анализ больших объёмов как общедоступных, так и закрытых данных, чтобы определить наиболее удачные буровые точки для добычи сланцевого газа, а также программу разработки скважин — они утверждают, что использование аналитических моделей решает эту задачу точнее и быстрее, чем классическая разведка и геолого-геофизическое моделирование, а также помогает принимать более эффективные решения в процессе эксплуатации месторождений.
В начале 2013 года открылся дополнительный сервис Kaggle Connect. С его помощью компании получали платные консультации у специалистов, отобранных самой Kaggle из списка наиболее успешных участников конкурсов. Однако в конце года эта инициатива была закрыта (вероятно, из-за высокой цены — $300 за час) — и компания полностью вернулась к конкурсной схеме.
Идея Kaggle посетила Энтони Голдблума в 2007 году, когда он работал в Резервном банке Австралии, прогнозируя с помощью эконометрических моделей тенденции в экономике для планирования государственного бюджета и политических стратегий. Примерно в то же время поставщик фильмов и сериалов Netflix организовал конкурс, в котором каждый желающий мог попытаться улучшить на 10% точность прогнозирующего алгоритма рекомендаций на основе оценок пользователей и получить главный приз — миллион долларов. Тем временем Голдблум отправился в Лондон на трёхмесячную стажировку в журнале The Economist. Он размышлял о том, что компании, с которыми он общался, не в полной мере используют имеющуюся в их распоряжении информацию, тогда как она могла бы помочь им принимать более эффективные для бизнеса решения, будучи обработанной статистическими методами. Тогда он решил бросить работу экономиста и полностью погрузиться в собственное начинание.
Kaggle открылась в 2010 году в Мельбурне с конкурсом на создание алгоритма, прогнозирующего ход голосования на Евровидении. К началу 2011-го проект набрал в США популярность большую, чем в Австралии, поэтому его основатель регулярно ездил в Сан-Франциско, а к концу года окончательно перебрался в Кремниевую долину. Вскоре инвестиции в проект составляли уже $11 млн. Голдблум говорит, что представители компаний из списка Fortune зачастую оценивают потенциальных партнёров по критерию надёжности инвесторов. С этой точки зрения Kaggle на высоте: в числе инвесторов — основатель PayPal Макс Левчин, венчурная фирма Khosla Ventures, специализирующаяся на инвестициях в технологии размером не менее $1 млрд, ведущий экономист Google Хал Вариан и швейцарский венчурный фонд Нила Раймера Index Ventures, финансировавший Skype и Betfair.
Сообщество участников конкурсов Kaggle росло быстро: 27 тысяч на начало 2012 года, 100 тысяч в 2013 году и уже более 150 тысяч сейчас. Тем не менее Kaggle — далеко не самая масштабная площадка для краудсорсинга интеллектуальных талантов на конкурсной основе: взять хотя бы Innocentive, где пул участников превышает 300 тысяч, или основанный в 1995 году фонд поддержки инноваций X Prize. Kaggle, в отличие от них, служит скорее для решения задач бизнеса, нежели научных открытий, и специализируется именно на «больших данных».
Очевидно, что, несмотря на внушительные денежные призы, компаниям выгоднее привлекать экспертов именно на конкурсной основе, поскольку они получают результат быстрее и качественнее, чем если бы наняли команду специалистов. Во-первых, конкурсы привлекают к специальным проблемам широкую аудиторию, в них участвуют представители разных областей знаний, которые могут привнести новый и нестандартный взгляд на задачу; во-вторых, соревновательный дух, наработки конкурентов и отсутствие гарантированной оплаты двигают процесс значительно быстрее. Кроме того, специалистам и группам во время работы над проектом приходится самим финансировать свою деятельность, а инициатор конкурса, получив разные варианты решения задачи, выплатит вознаграждения только одному победителю.
Добровольцы, в свою очередь, получают шанс пополнить портфолио и приумножить опыт работы, имея дело с совершенно реальными данными, увидеть реализацию собственной идеи и, конечно, сделать мир немного лучше и рациональнее — немаловажный стимул для статистиков и оптимизаторов.