Как автоматический анализ данных упрощает работу юриста

Существуют целые отрасли — и немаленькие, — о которых знают только специалисты. Рынок e-discovery относится именно к этой категории. Его объём составляет миллиарды долларов и продолжает расти. За дольку этого пирога конкурируют десятки ИТ-корпораций, включая таких гигантов, как Symantec, HP и IBM. Но что вы можете о нём сказать?

Между тем многие компании вряд ли смогли бы нормально функционировать, если бы не современные программные решения для e-discovery. Возьмём, к примеру, случай Transatlantic Reinsurance Company — одного из крупнейших американских перестраховщиков.

Перестраховочные компании принимают на себя часть риска других страховщиков, которую те не могут нести самостоятельно. Деятельность подобного рода жёстко регулируется государством. На практике это означает огромную нагрузку на юристов перестраховщика, которые то и дело должны прочёсывать архивы компании, выполняя запросы регулирующих органов или юрисконсульта и руководства.

Архивы в данном случае — давно не шкафы и пыльные папки. Речь идёт об электронных документах, и это, как ни странно, только усложняет работу. Дело в том, что электронные документы плодятся куда быстрее бумажных. Крупным компаниям зачастую приходится хранить всю электронную переписку между сотрудниками и всевозможные базы данных, связанные с их деятельностью. Получается, что обработка поступившего запроса выливается в необходимость перебрать сотни тысяч документов. А поскольку в таких вопросах точность превыше всего, изрядную часть работы приходится делать вручную.

Именно этот трудоёмкий процесс обозначают термином e-discovery. Как правило, поиск нужных документов происходит в несколько этапов. Сначала — первичный отбор по ключевым словам (с ним машины справляются без труда). Затем отобранные документы ещё раз фильтруются при помощи различных программных средств. В конце каждый документ, так и не отфильтрованный машиной, просматривает человек.

Первичным отбором и фильтрацией документов в Transatlantic Reinsurance Company занимался заместитель главного юрисконсульта Эдвард Келли. Поиск по ключевым словам, как правило, требовал от одного до трёх рабочих дней (если нужные архивы хранились на ленточных накопителях, этот срок возрастал как минимум на неделю). Затем юридический отдел в течение нескольких недель вручную обрабатывал найденные документы. Информация, обнаруженная на этой стадии, нередко вынуждала расширить список ключевых слов. Это отодвигало завершение работы ещё на несколько дней.

Всё бы ничего, если бы сложность e-discovery сохранялась на стабильном уровне. Это, увы, не так: за минувшие двадцать лет количество документов, которые приходится просеивать юристам крупных компаний, выросло на несколько порядков. Если в начале девяностых даже запросы на несколько тысяч документов были исключительным событием, то теперь и миллионы не редкость. А в скором будущем к текстовым документам добавятся аудиовизуальные записи. Они плохо поддаются автоматической фильтрации, и это определённо не упростит дело.

Впрочем, даже обычный текст — это не так уж просто. Классические программные решения e-discovery не способны даже проранжировать документы в порядке уменьшения релевантности, как это делают поисковые системы в интернете. По статистике, 85% найденных ими документов не нужны, но чтобы определить их конкретно, юристы должны просмотреть их все и вынести свой вердикт.

Анализ документов вручную — это самая долгая и дорогостоящая часть e-discovery. Согласно исследованию Rand Corporation, средняя стоимость изучения гигабайта документов составляет $18 тыс. Необходимость более тщательного анализа значительно повышает цену. В одном из случаев, рассмотренных Rand Corporation, обработка каждого гигабайта обходилась в $358 тыс.

Громкая судебная тяжба между Samsung и Apple наглядно иллюстрирует, насколько дорогим может быть e-discovery. Когда поступило предложение поднять электронную переписку руководства Samsung, адвокаты корейской компании отпирались, утверждая, что на обработку такого запроса потребуются миллионы долларов. Его всё же пришлось выполнить, и это обошлось Samsung ещё дороже: изучение найденных документов убедило суд в правоте Apple.

Это не первый судебный процесс, исход которого в значительной степени зависел от e-discovery. Главными уликами, подкрепляющими антимонопольные обвинения в адрес Microsoft, были электронные письма Билла Гейтса и других руководителей компании. Расследование деятельности обанкротившейся энергетической компании Enron также держалось на изучении переписки её менеджеров.

Учитывая, какие деньги крутятся на мировом рынке e-discovery, вряд ли стоит удивляться интересу, который проявляют к нему ИТ-компании. Бурное развитие технологий машинного обучения, делающих возможной автоматическую классификацию документов, только подхлестнуло конкуренцию между ними. Аналитики Gartner прогнозируют, что к 2017 году объём этого рынка удвоится по сравнению с уровнем 2012-го.

Специалисты искали методы снизить нагрузку на юристов и до того, как словосочетание «машинное обучение» вошло в моду. В 2008 году исследовательский центр Symantec опубликовал работу под названием «Уменьшение расходов на e-discovery посредством фильтрации включённых электронных писем». Предложенный в ней метод уменьшал количество рассматриваемых писем на 20% и одновременно объединял их по смыслу для более удобного и быстрого просмотра.

Метод основан на известном факте: при ответе на электронное письмо принято цитировать его текст. В результате один и тот же фрагмент текста может оказаться включён в десятки писем. Если переписка достанется юристу, ему придётся просмотреть их все, даже если нужное ключевое слово было только в первом, а остальные просто цитировали его.

Избавиться от цитат, не потеряв при этом лишнего, не так-то просто. Метод выстраивания цепочек писем, применяемый почтовыми клиентами, недостаточно надёжен. Авторы работы предложили выявлять цитаты путём сравнения текста. Это сопряжено с другими сложностями: не всякий совпадающий текст представляет собой цитату. Например, абзац, состоящий из единственного слова «да», может встречаться в письмах, которые никак не связаны между собой.

Разработанный в Symantec Research Lab алгоритм использует вероятностную структуру данных под названием «фильтр Блума», для того чтобы проверять наличие абзацев в тексте и затем сравнивать письма между собой. Фильтр Блума гарантирует отсутствие ложных срабатываний: если в множестве есть элемент, он всегда подтвердит это (обратное, впрочем, неверно). Эта особенность очень важна именно для такого применения. Попутно алгоритм отфильтровывал повторяющиеся подписи, приветствия и прочий словесный мусор.

Идея не пропала даром: сейчас аналогичная функциональность встроена в Symantec eDiscovery Platform — решение Symantec для e-discovery. Оно объединяет собственные наработки Symantec — технологии компании Clearwell, которая влилась в Symantec в 2011 году, — и возможности приложения Symantec Enterprise Vault, предназначенного для управления корпоративными почтовыми и файловыми архивами. Именно его решили внедрить в Transatlantic Reinsurance Company, чтобы справиться с растущей нагрузкой на юристов.

Symantec eDiscovery Platform — это серьёзный шаг вперёд по сравнению с простым поиском по ключевым словам. Решение Symantec анализирует содержание и метаданные документов, сопоставляет с известной организационной структурой компании и отыскивает коммуникационные паттерны. Это, как и лингвистический и статистический анализ содержания, помогает ему сгруппировать документы по темам. Электронная переписка фильтруется, избавляется от дубликатов и группируется в цепочки вопросов-ответов.

Но самая интересная технология, которую поддерживает Symantec eDiscovery Platform, появилась совсем недавно и называется предиктивным кодированием. Она позволяет обучать компьютер различать документы по содержанию. Для этого пользователь вручную делит часть документов по категориям. Специальный алгоритм анализирует действия пользователя и пытается классифицировать другие документы самостоятельно. Пользователь поправляет допущенные машиной ошибки — и так до тех пор, пока точность не становится достаточной для практического применения.

Согласно одному из исследований, предиктивное кодирование позволяет на 80% уменьшить время, необходимое для изучения документов. Это значит, что расходы на e-discovery могут быть сокращены более чем вдвое.

Эдвард Келли из Transatlantic Reinsurance Company описывает выгоду с адвокатским красноречием: «Между анализом документов вручную и с помощью Clearwell лежит пропасть. Разница почти такая же, как между приготовлением обеда в микроволновке и на огне, разведённом при помощи трения палочек друг о друга».