Если «большие данные» подарят миру еще немного новинок, подобных той, о которой сейчас пойдет речь, равнодушных к ней журналистов просто не останется. Одни начнут стенать, что отныне статьи сможет писать всякий дурак. Другие, наоборот, запрыгают от радости, получив в руки инструмент, который сэкономит им много сил и нервов. Кто обрадуется по-настоящему — так это редакторы. Им не придется долго и мучительно проводить фактчекинг — разбираться, много ли глупостей поведал миру журналист в очередных своих новостях или статьях.
В общем, сегодня речь пойдет о примечательном проекте Overview, благодаря которому журналисты получают возможность автоматически отделить зёрна от плевел, пересмотрев тонны материалов — фейки и действительные новости, информационные утечки и разбушевавшиеся фантазии блогеров, официальные документы и посты в социальных сетях. Более того, они смогут легко и точно структурировать полученную информацию, визуально выстроить источники по заданной тематике и увидеть связи между ними. Чрезвычайно полезная вещь, оберегающая автора от тупиковых блужданий по просторам Сети. Алгоритмы Overview используют обработку естественного языка и «больших данных», что позволяет действительно «разложить тему по полочкам», определить, какие материалы важны в большей степени, а какие — в меньшей. Overview «научили» отмечать при обработке те слова, которые важны пользователю и отметать неважное.
Overview — бесплатный инструмент с открытым исходным кодом. Для примера в него можно перенести собственные данные из облачного хранилища DocumentCloud, загрузить информацию в виде готового CSV-файла или же воспользоваться постами из социальных сетей. После этого система запускает уникальный алгоритм категоризации документов, отдавая пользователю на выходе стройное иерархическое «дерево». Все документы в нем представлены в виде связной структуры, которую довольно удобно рассматривать, планируя будущий материал.
Зародился проект, как это нередко бывает, отнюдь не на пустом месте, а из решения собственных проблем его авторов. В 2010 году они работали в качестве привлеченных журналистов над материалами одной из крупнейших в истории информационных утечек — Iraq War Logs. Труды были не очень продуктивными, что не удивительно — ведь нужно было разобрать ни много ни мало 391 832 документа и собрать из них единую картину событий. Тогда и родилась идея применить к этим документам классические методы информационно-поисковой обработки. Довольно скоро — всего через несколько месяцев — была представлена первая версия, написанная на Ruby и использующая Gephi — опенсорсную платформу для интерактивной визуализации. Это ПО группировало документы по принципу их схожести друг с другом, а также раскрашивало в разные цвета в соответствии с ключевым содержанием текста. Журналисты воочию увидели кластеры событий, происходивших вокруг отдельных сражений, похищений, взрывов и т. д. На этом этапе, конечно, еще не шло речи об обработке естественного языка — только о примитивной визуализации структуры. Но создатели софта все равно были довольны. Некоторое время.
Всего через год к вопросу пришлось подойти с более реалистичной точки зрения. На руках было 4 500 недавно рассекреченных докладов. И из них следовало сделать настоящую журналистскую историю. Тут-то и проявилась разница между алгоритмами и их реальным приложением. «Просмотрщик документов» пришлось улучшить: понадобилось четко сформулировать методологию построения журналистского обзора. И это удалось. Разработчики научились находить закономерности в данных, подытоживать содержание каждого информационного кластера и подводить итоги. Технология оправдала себя и показала, что система действительно практически составляет историю вместо журналиста. Разработчики праздновали победу.
После чего оказалось, что всё это совершенно не работает. То есть работает для данного конкретного случая. А вот среди добровольцев, установивших прототип новинки, желаемый результат получили 3 из 20. Последовала долгая доработка, смена алгоритмов, дизайна, языка программирования. А главное — смена концепции. Система, которая вначале пыталась жёстко и правильно структурировать информацию, начала принимать в расчёт человека. То, что изначально попытались сделать авторы, — систему, которая подводила итоги и суммировала обработанные материалы, — оказалось нужным всего лишь в 25% случаев. Во всех остальных журналист искал в грудах информационного мусора что-то своё — возможно, доказательство гипотезы или подтверждение идеи. Для этого не нужно сверхточное представление: наоборот, машина должна уметь улавливать слабые и малочисленные связи, которые могли бы оказаться ценными и уникальными. Фантазии технологов в некоторой степени опровергла практика. Материалы не всегда были идеальными, как в научных статьях или правительственных документах, на которых тестировали систему.
При всем том результаты из Overview легли в основу ряда успешных журналистских исследований. Её использовали для поиска закономерностей в инцидентах, связанных с частными военными подрядчиками в Ираке, для расследования недобросовестных действий полицейского департамента в Талсе и даже для оценки истинных действий и намерений политических деятелей, публично критикующих те самые программы, которые поддерживали на деле. Ну что тут скажешь. Overview действительно претендует на то, чтобы «сделать журналистами» многих. Ведь умение перебрать сотни документов, вычленить оттуда самое важное и достоверное, понять взаимосвязи — это и есть одно из важнейших отличительных черт приличного автора. А написать связно и грамотно может каждый, кто не прогуливал лекций на филологическом факультете. Хороший слог и грамотность отнюдь не гарантируют наличия аналитического мышления. Но теперь вся аналитика может остаться на совести проектов, подобных Overview. Машина прочтет тексты, машина выстроит их в связный граф, машина фактически сама предоставит план обзора чуть ли не по любой теме. Остается только пересмотреть в заданном порядке…