Сегодня в мире зарегистрировано более трёх с половиной миллиардов учётных записей электронной почты. Каждый день серверы пересылают около ста пятидесяти миллиардов писем. По данным ЗАО «Лаборатория Касперского», более двух третей из них обычно составляет нежелательная корреспонденция. Есть, конечно, противоспамовые фильтры, но это не панацея. Они плохо поддаются точной настройке и временами пропускают спам, а важные письма фильтруют. Команда израильских исследователей считает, что нашла решение этой проблемы.
Проект под руководством профессора Университета им. Бен-Гуриона Марка Ласта (Mark Last) будет особенно актуален для пользователей мобильных устройств. В рамках предложенной концепции вся текстовая часть сообщений разбивается на блоки и подвергается глубокому анализу. Из каждого блока выделяются ключевые слова, которые затем используются для тезисного представления письма. Таким способом длинные письма «выжимаются» максимум до пары сотен слов, благодаря чему с их сутью часто можно ознакомиться, даже не открывая их.
Общий алгоритм реферирования текста (изображение: lexalytics.com).Ласт занимался разработкой подобных алгоритмов с 1996 года, когда был аспирантом в Тель-Авивском университете. Это было задолго до появления термина «большие данные». Тогда их называли просто методами интеллектуального анализа неструктурированных данных.
Подобные методы были опробованы ранее при анализе веб-страниц. Как поясняет Марк, в интернете есть десятки тысяч сайтов, пропагандирующих терроризм. Однако их совсем не просто найти. Они маскируются под сайты общественных организаций, новостных агентств и тематические форумы.
Марк Ласт и его команда разработали алгоритм статистического и семантического анализа веб-контента, выстраивающий «характеристические модели» страниц по результатам их сканирования. Основной вклад в результат анализа вносит учёт числа и характера употребления ключевых слов. В данном случае это «враг», «мученик» и специфические фразы. Например, на таких сайтах никогда не используется словосочетание «террорист-смертник». Вместо него применяется понятие «человеческая бомба» и разные аллегории.
Данные методы обработки текстовых данных и технология автоматического реферирования применяются аналитиками, пресс-службами крупных компаний, сотрудниками спецслужб и представителями других профессий, которым приходится ежедневно обрабатывать большой объём информации.
Любопытная деталь биографии: Ласт родился в России, затем эмигрировал в Израиль и поступил в университет им. Бен-Гуриона. Сейчас он профессор кафедры инженерных информационных систем и занимается исследованиями по одному из самых актуальных ИТ-направлений.
Пока описанные алгоритмы ориентированы в первую очередь на англоязычные тексты. Параллельно они адаптируются для иврита, арабского и других языков. Хотя Марк и отмечает, что его команда разрабатывает методы, а не конечный программный продукт, соответствующая патентная заявка уже подана в США.