Почему модели искусственного интеллекта так плохо разбираются в правописании

Модели искусственного интеллекта уже с легкостью сдают экзамены, побеждают шахматных гроссмейстеров и отлаживают код как ни в чем не бывало. Но если выставить ИИ против школьников в тесте на правописание, он окажется в нокауте быстрее, чем человек напишет «диффузия». В статье разбираемся, почему ИИ допускает глупые ошибки.

дорога

Несмотря на все достижения ИИ, он все еще не умеет писать. Если попросить генераторы текста и изображений, вроде DALL-E, создать меню для мексиканского ресторана, то они выдадут аппетитные картинки и несуразные надписи.

меню

«Генераторы изображений, как правило, лучше справляются с такими артефактами, как автомобили и лица людей, и хуже — с такими мелкими деталями, как пальцы и почерк».

Асмелаш Тека Хадгу, соучредитель компании Lesan и научный сотрудник Института DAIR

Технологии, лежащие в основе генераторов изображений и текстов, различны, однако оба вида моделей испытывают схожие трудности с такими деталями:

  • Генераторы изображений обычно используют диффузионные модели, которые восстанавливают картинки из «шума».
  • Когда речь заходит о генераторах текста, может показаться, что большие языковые модели (LLM) читают и отвечают на подсказки, прямо как человеческий мозг, но на самом деле они используют сложную математику, чтобы сопоставить паттерн подсказки с паттерном в своем латентном пространстве — так они выдают ответ.

Алгоритмы заинтересованы в том, чтобы воссоздать что-то похожее на то, что они видели в своих обучающих данных, но они не знают правил, которые мы считаем само собой разумеющимися — например, «hello» не пишется как «heeelllooo», и у человеческих рук обычно пять пальцев. Другими словами, нейросеть выдает пальцы, похожие на человеческие, но не знает, сколько их, и она выдает изображения букв в зависимости от их сходства, но не структурирует  их.

И хотя ChatGPT может писать рефераты, он проявляет комичную некомпетентность, когда его просишь придумать слово из 10 букв, не используя «А» и «Е» (например, ChatGPT предложит «балаклава»).

В нашем Telegram-канале выложили видео, на котором пользователь попросил ChatGPT нарисовать слово «Honda» символами ASCII-арта. В конце концов ему это удалось, но не без одиссеевских испытаний. Предположительно, проблема в том, что при обучении ИИ не использовали достаточно ACSII-артов.

Инженеры могут решить проблему с пальцами, дополнив свои наборы данных обучающими моделями, специально разработанными для того, чтобы научить ИИ, как должны выглядеть руки. Но эксперты не ожидают, что проблемы с правописанием разрешатся так быстро. И особенно, если учесть, сколько разных языков приходится изучать ИИ.

билборд

Но в основе своей LLM просто не понимают, что такое буквы, даже если они могут писать стихи за секунды. LLM основаны на архитектуре трансформера, который, что примечательно, не читает текст. Когда вы вводите запрос, он переводится в кодировку. Когда ИИ видит слово «привет», у него есть одна кодировка того, что означает слово, но он не знает букв по отдельности. Зато историю букваря или даже отдельной буквы с легкостью может процитировать из «Википедии».

К слову, если присмотреться, ИИ ошибается не только в пальцах и написании букв. Эти модели постоянно допускают мелкие локальные ошибки — просто люди особенно хорошо настроены на распознавание только некоторых из них.

музыкальный магазин

Для обычного человека сгенерированное изображение музыкального магазина может быть правдоподобным. Но тот, кто немного разбирается в музыке, увидит, что у некоторых гитар семь струн или что черные и белые клавиши на пианино расположены неправильно.

Хотя модели ИИ совершенствуются с огромной скоростью, эти инструменты все равно сталкиваются с подобными проблемами, что пока ограничивает возможности технологии (и защищает людей от многочисленных дипфейков).

ЧИТАТЬ ЕЩЕ:

Почему не стоит сравнивать мозг с компьютером

Большие языковые модели оказались не «стохастическими попугаями»: чат-боты понимают текст

Что будем искать? Например,ChatGPT

Мы в социальных сетях