Ученые использовали ИИ для дешифрования мертвых языков

Одна из главных и самых важных вещей, которые отличают людей от других видов, — это язык, или способность соединять различные элементы в по существу бесконечные комбинации. Но каким бы важным ни была эта черта в эволюции человека, мало известно о том, как происходила эволюция самого языка. Некоторые мертвые языки, такие как латынь, имеют множество письменных свидетельств и потомков, благодаря которым можно лучше понять их. Но некоторые языки потеряны для истории.

Исследователям удалось восстановить некоторые утраченные языки, но процесс их расшифровки может быть долгим. Например, древнее линейное письмо Б было разгадано более чем через полвека после его открытия, и некоторые из тех ученых, кто работал над ним, не дожили до завершения работы. Другой мертвый язык линейное письмо А, система письма минойской цивилизации, остается не расшифрованным.

Однако современные лингвисты имеют в своем распоряжении полезный инструмент: искусственный интеллект. Тренируя ИИ, можно научить его находить закономерности в нерасшифрованных языках, которые исследователи затем могли бы реконструировать и раскрыть новые секреты древнего мира. Исследователи из Массачусетского технологического института (MIT) недавно показали новый нейронный подход в успешной расшифровке линейного письма Б и однажды технология может привести к восстановлению других потерянных языков.

Воскрешая мертвые языки

Проект исследователей из MIT иллюстрирует трудности дешифрования, а также потенциал ИИ произвести революцию в этой области. Исследователи разработали нейронный подход к расшифровке утраченных языков, «основанный на закономерностях языковых изменений, задокументированных в исторической лингвистике». Новую технологию необязательно каждый раз адаптировать к конкретному языку.

Чтобы создать модель, которую можно было бы использовать независимо от задействованных языков, команда установила ограничения на основе тенденций, которые можно наблюдать в процессе эволюции языков.

Модель полагается на два уровня понимания лингвистики. Один из них на уровне символов. Ученым известно что, когда слова развиваются, они обычно развиваются слева направо.

«Возможно, строка на латыни будет записана как ABCDE, что, скорее всего, измениться и превратится в ABD или ABC. Исходный порядок в некотором роде будет сохранен. Это то, что мы называем однообразностью», — объяснили ученые.

Другой на уровне словарного запаса, то есть всех слов, составляющих язык. Команда использовала технику, называемую «сопоставление один-к-одному».

«Это означает, что если вы возьмете весь словарный запас латыни и весь словарный запас итальянского, вы увидите своего рода однозначное соответствие, — предложили в качестве примера ученые. — Латинское слово “собака”, вероятно, превратится в итальянское слово “собака”».

Чтобы протестировать модель, команда использовала несколько наборов данных. Они перевели древний угаритский язык на иврит, а линейное письмо Б на греческий и, чтобы подтвердить эффективность модели, выполнили определение родственных слов (слов с общим происхождением) в романских языках — испанском, итальянском и португальском.

Это была первая известная попытка автоматически расшифровать линейное письмо Б, и модель успешно перевела 67,3% родственных слов. Система также смогла улучшить перевод угаритского языка. Учитывая, что языки происходят из разных семейств, это демонстрирует, что модель гибкая, а также более точная, чем предыдущие системы.

Линейное письмо А остается одной из величайших загадок лингвистики, и разгадав этот язык, ИИ мог бы совершить подвиг. Однако на данный момент, по словам ученых, что-то подобное является чисто теоретическим. Для изучения языка не хватает данных. Еще одна проблема заключается в том, что в языке линейного письма А присутствует много графических или логографических знаков или символов, которые могут обозначать не звук, а целые слова.

«В английском языке 26 букв, если не считать заглавные буквы, а в русском — 33. Это так называемые буквенные системы. Поэтому вам просто нужно выучить эти 26 или 30 с лишним символов, — говорят ученые. — Но китайцам приходится иметь дело с тысячами из них. Минимальное количество иероглифов, которые нужно знать, чтобы просто прочитать газету, составляет около 3 000 или 5 000. Линейное письмо А, из-за его графических или логографических символов определенно сложнее, чем линейное письмо Б».

Новая система предоставляет улучшенные возможности дешифровки и автоматической расшифровки известных языков, что по мнению ученых, является многообещающим результатом.

Исследование доступно на сайте MIT.

Источник