Одной из основ современной технологической цивилизации – не такой наглядной, как плотины электростанций, супертанкеры с контейнеровозами и проплывающие в небе спутники, но не менее важной – является институт научных журналов. Именно они обеспечивают процесс коммуникации в научной среде, и, соответственно, процесс технологического развития человечества. И вот к этим журналам начинают присматриваться системы искусственного интеллекта – и присматриваться весьма успешно. Применяя крайне интересный подход.
В 1963 году Станислав Лем в провидческой Summa Technologiae, книге, во многом предсказавшей современное состояние цивилизации, писал:
«Поскольку наука — это добывание информации, о темпе ее развития довольно точно говорит количество выпускаемых специальных журналов. Начиная с XVII века оно возрастает экспоненциально. Каждые 15 лет число научных журналов удваивается.»
(Перевод под редакцией Ф.Широкова, 1968)
Потом, в 1999 г. Лем вернется к этой теме в сборнике эссе «Мегабитовая бомба», русский перевод которого в начале тысячелетия печатала бумажная «Компьютерра». Потом он выскажет идею «белой трости слепца» в захлестывающем мир океане информации.
Ну а теперь такая «белая трость…» появляется в виде автоматизированной системы составления рецензий, абстрактов, на статьи в научных журналах. Создали ее семеро исследователей из частных учебных заведений, Политехнического института Ренсселера в городе Трой, штат Нью-Йорк и из Университета Южной Калифорнии в Лос-Анджелесе. Занятно, что у пятерых из них, причем нью-йоркских, фамилии азиатские… Результаты работы изложены в статье Paper Abstract Writing through Editing Mechanism, «Написание рецензий с помощью редактирующего механизма».
Механизм – это, конечно, в духе современных веяний была нейросеть. Но очень интересна логика, которой руководствовались ее создатели. Исходившие из того, как реферат, абстракт статьи, пишет человек. И занятно, что в тексте научной работы они цитируют писателя фантаста, филолога-классика по образованию, Кэролайн Дж. Черри – «нормально писать добротный мусор – пока вы можете его блестяще редактировать». Ну а обращение к процедуре редактирования в создании системы написания рефератов было вызвано острой необходимостью.
Дело в том, что реферат удобнее всего писать, отталкиваясь от названия статьи. Ведь именно в него стараются поместить квинтэссенцию, пятую выжимку, ее содержания. Но машину, живущую во вселенной своего тезауруса, такой подход очень часто заводил в тупик. И человеческая речь многозначна. И те слова, которыми автор научной работы излагает свои результаты, он выбрал в виде длительных размышлений, эдакого немарковского процесса с текстом. Отталкиваясь от черновика, а потом снова и снова редактируя его и для изложения сути, и для ясности.
И вот создатели «нейросетевого писателя рефератов» кроме Writing Network, Пишущей Нейросети, ввели в его состав Editing Network, Нейросеть Редактирования. Работу с текстом начинает Пишущая Нейросеть, но в силу конструктивно высокого параллелизма и высочайшего быстродействия нейросетевых архитектур в практическом смысле все происходит одновременно. Пишущая Нейросеть, «прочитывая», кодируя векторами, сначала заголовок, а потом и все остальные последовательности текста, следуя sequence-to-sequence model, известному методу машинного обучения (описание метода на Coursera, открытые библиотеки на TensorFlow) формирует начальный черновик рецензии.
Далее (или, точнее, итерационно) в работу вступает Нейросеть Редактирования. На ее входы поступают вектор, содержащий закодированный начальный черновик рецензии и вектор с содержимым заголовка. Зачем Нейроредактору нужен начальный черновик рецензии? Дело в том, что неоднозначность человеческой речи, широта ее семантических спектров обрекает Редактора на работу с массивами слишком уж большой размерности. А начальный черновик рецензии позволяет выделить из них более удобное для обработки подмножество.
Авторы приводят пример того, как ранняя версия системы, обрабатывая статью 2008 года “An effective method of using Web based information for Relation Extraction” сосредоточилась на интернет-тематике, уйдя в сторону от установления связей… Вот для избежания таких проблем и была применена двойственная, Писатель-Редактор, архитектура нейросети, и на Нейросеть-Писателя была возложена присутствующая и в мире белковых авторов обязанность предварительно разъяснять, о чем идет речь.
Дальше в работе рецензирующей нейросети имеет место проход большого количества итераций. Там Пишущей Нейросетью все точнее и точнее составляется начальный черновик рецензии на научную работу, а Нейросеть Редактирования все точнее уясняет, что же хотел сказать автор названием статьи, и все тщательней и тщательней редактирует черновик рецензии. В конце концов получается результат, оцениваемый тестом Тьюринга, который в данном случае напоминает историю, случившуюся между двумя древнегреческими художниками.
Как рассказывают, Зевксис написал на стене храма виноградную гроздь, да так искусно, что птицы стали ее клевать. Ну а Паррасий написал занавеску, и столь умело, что Зевксис сначала пытался ее отдернуть, а потом признал Паррасия победителем, ибо он обманул художника… Так вот, для проверки качества абстрактов была использована «модель Паррасия» — рефераты оценивались специалистами. Причем специалистами двух групп – учеными данной специальности и учеными той же узкой специализации. И им предстояло установить «вслепую» — кем написан данный реферат статьи, человеком или машиной?
Результаты прохождения теста весьма впечатляющие – 80% ученых общей специализации, и 30% специалистов узкой специализации были готовы принять рефераты, составленные нейросетью, за «человеческую» продукцию. Причем речь-то идет о науке – о самом интеллектуальном виде человеческой деятельности. И об исследовательском, а не о коммерческом проекте – всего семеро специалистов трудилось над ним. Так что, похоже, человечество приближается к тому, чтобы осознать те принципы, которые лежат в основе работы разума.
Когда-то ВИНИТИ платил аспирантам и молодым инженерам трояк за реферат для своих «Реферативных журналов». Это соответствовало 60 поездкам в метро, паре книжек издательства «Мир» или бутылке портвейна «72» с десятком пирожков на закусь… Похоже, что таких заработков больше не будет. Никогда. Но зато массив информации, циркулирующей в международном научном сообществе становится все более обозримым и удобным для использования. Будущее с умными машинами уже не наступает – оно уже наступило!