13 февраля в учебном центре SAS прошла церемония награждения победителей открытого конкурса «Соревнования SAS Russia по анализу данных: коллекторский скоринг» с призовым фондом в 225 тысяч рублей. Свои аналитические модели для оценки платежеспособности заемщика и прогнозирования выплат задолженности на суд экспертов компании SAS и международной платформы «АлгоМост» предложили сотни студентов, сотрудников банков и специалистов в области математической статистики. Мероприятие стало одной из первых общероссийских инициатив, направленных на привлечение внимания к проблеме анализа «больших данных» в конкретных бизнес-задачах.
Главной целью конкурса была разработка банковской аналитической модели при помощи приложения статистического и количественного анализа данных SAS University Edition. С 2014 года оно бесплатно доступно для учебного и некоммерческого использования в среде Windows, Linux и Mac.
По условиям соревнования предложенная модель должна учитывать минимум тридцать два исходных показателя и прогнозировать на их основе темпы выплаты просроченного долга. Для расчётов участниками конкурса использовались обезличенные данные кредитной истории и социально-демографические маркеры в тренировочном и тестовом наборе. Качество работы проверялось на тестовой выборке. С подгонкой алгоритмов под неё устроители соревнования боролись различными методами – вводя задержки обновления списка лидирующих работ и ограничивая число присланных вариантов.
«Датамайнинг – одна из самых творческих профессий, – сказал генеральный директор «АлгоМост» Михаил Левиев. – Мы рады, что совместно с компанией SAS провели успешный конкурс, участники которого получили возможность в полной мере проявить свой творческий потенциал».
Изначально предполагалось, что приз разделят между собой авторы трёх лучших алгоритмов и победители двух специальных номинаций: за лучшее оформление программы и за лучшую студенческую работу. Однако по итогам соревнования организаторами было решено объявить эквивалентными по ценности работы, занявшие второе и третье место. По точности моделирования результаты двух финалистов не отличались даже в третьем знаке после запятой.
Главным критерием качества работ был коэффициент Джини, но несмотря на его относительно низкое значение (0,508) алгоритм банковского аналитика Эдуарда Бабаяна оказался наиболее подробно описанным и удобным для практического применения. Он проработал полностью ручное построение модели, выполнил анализ значимости для каждой переменной и уделил особое внимание эффектам настройки одних переменных другими.
По мнению Эдуарда, SAS UE содержит весь необходимый набор инструментов для решения конкурсной задачи, и переход на неё с обычной версии не вызывает никаких проблем. Однако приложение требует доработки по ряду параметров. В частности, для решения практических задач необходимо повысить скорость некоторых видов анализа и устранить ошибки с обработкой текстовых переменных.
Студент четвёртого курса факультета вычислительной математики и кибернетики МГУ Андрей Шапулин представил работу, близкую по уровню к алгоритмам практикующих специалистов. С результатом 0,514 он получил заслуженный приз в специальной номинации.
Андрей увлекается технологиями машинного обучения и визуализации данных. Для решения учебных задач он обычно использовал Python (Pandas + skelarn), Octave (MATLAB) и программную среду R, оптимизированную для статистической обработки данных.
С программным пакетом SAS UE Андрей работал впервые. Он считает её перспективной программой за счёт множества встроенных статистических процедур и предлагает расширить их перечень ещё больше. Например, добавить отдельную процедуру кросс-валидации и сделать регулярзацию в логистической регрессии.
Конкурс SAS и АлгоМост проходил с 1 октября 2014 по 29 декабря 2014, но многие услышали о нём ближе к завершению. Риск-менеджер Альфа-Банка Ирина Макарова узнала о нём только в середине декабря, однако представленная за две недели до окончания работа оказалась настолько хороша, что разделила второе место вместе с моделью Валерия Ващенко.
Ирина отметила удобство совместного использования встроенных инструментов приложения SAS UE и акцентировала внимание на возможности написания собственного кода. Для аналитической программы это очень существенный момент, позволяющий решать нетривиальные задачи и оптимизировать общепринятые методы с учётом реальной специфики.
Как и большинство конкурсантов, Валерий опирался на метод бинарной логистической регрессии, широко используемой для построения скоринговых карт. При этом более взвешенный выбор исходных данных, учёт региональных факторов и тщательная оценка значимости переменных позволили ему быстро занять одну из лидирующих позиций.
В частности, Валерий сделал подробный анализ взаимосвязи между регионом и темпами выплат долгов проживающих в нём заёмщиками. Так он определил города с благополучным кредитным профилем и населённые пункты, где выплаты по счетам производятся реже всего. Полученные данные были добавлены в модель в качестве новых параметров и поправочных коэффициентов.
В ходе работы над моделью Валерий отметил, что выплате большинства долгов препятствуют одни и те же стоп-факторы: основной долг погашен на 70%, общий долг остался больше 750 тысяч рублей, а возраст заёмщика превышает 60 лет.
Первое место занял Олег Куликов, практически постоянно возглавлявший предварительные списки победителей конкурса. По его словам, около 80% времени при решении подобных задач занимает процесс подготовки и обработки данных.
Для улучшения качества анализа он вводил дополнительные переменные (например, нормированный остаток задолженности) и связывал их в модели между собой. Олег считает SAS UE мощным аналитическим ПО и приветствует решение разработчиков сделать его доступным для каждого бесплатно.
«Первый опыт проведения конкурса я считаю позитивным, – сказал Валерий Панкратов, генеральный директор представительства SAS в России и странах СНГ. – Точность полученных моделей достаточно высока, и мы думаем о том, как эту форму развивать».
Он обратил внимание на тот факт, что некоторые крупные фирмы используют простое маркетинговое продавливание своих решений, в то время как в SAS всегда стремятся привлечь профессионалов, создавая для них тонкие и общедоступные инструменты анализа.
После подведения итогов конкурса победителей поздравил начальник отдела кредитных стратегий департамента розничных рисков Промсвязьбанка Игорь Толстов. Он высоко оценил качество работ и подчеркнул, что даже при использовании общего метода регрессии их результат сильно зависел от квалификации аналитика – его умения выбрать верные критерии и найти не самые очевидные взаимосвязи между ними.