Хотя сейчас рекламируют ChatGPT и GPT-4 Turbo, существуют и другие большие языковые модели (LLM), причем на практике некоторые из них более эффективны. Конкурент OpenAI, компания Anthropic представила миру Claude 3.5 Sonnet, которая по генерации текстов, идей, кода обгоняет ChatGPT.
В статье «Компьютерра» решила сравнить Claude 3 Opus и GPT-4 Turbo, и для этого протестировали нейросети по разным задачам, используя агрегатор BotHub, который предоставляет доступ к нужным нам моделям.
Не ChatGPT единым: главные конкуренты в мире нейросетей
ChatGPT — не феномен, а только одна из нескольких больших языковых моделей. У него есть как преимущества (точность, большая база, стоимость использования), так и ограничения, и особенно это неспособность выполнять некоторые языковые задачи на высоком уровне.
При выборе нейросети, нужно учитывать конкретные задачи и оценивать, справится ли модель с ними с учетом ее сильных и слабых сторон. Если у OpenAI фокус на исследованиях, то в Anthropic сосредоточились на разработке ИИ для практичных решений, поэтому их модель подойдет для бизнес-задач.
Claude 3 Opus, самая «умная» модель от Anthropic, обгоняет аналоги, в том числе и GPT-4, по большинству основных бенчмарков:
- экспертным знаниям на уровне бакалавриата (MMLU);
- экспертному мышлению на уровне выпускника (GPQA);
- базовой математике (GSM8K) и др.
По словам разработчиков, Opus «демонстрирует почти человеческий уровень понимания и беглости в решении сложных задач». Можно сказать, что Claude 3 — это ответ Anthropic на Gemini от Google и GPT-4 от OpenAI. И похоже, что в этой гонке Claude 3 вырывается вперед.
Удивительный факт: Claude 3 прошла тест на IQ лучше, чем среднестатистический человек. Журналист Максим Лотт провел эксперимент, в котором нейросети отвечали на вопросы IQ-теста. Самым умным ИИ стала Claude-3: модель показала результат в 101 балл. Для сравнения: у среднестатистического человека IQ 85 — 115.
Полезные для бизнеса возможности Claude 3 Opus:
- автоматизация задач;
- мозговой штурм;
- анализ графиков, диаграмм, различных показателей;
- прогнозирование.
Модель послабее, Claude 3 Sonnet, в свою очередь представляет идеальный баланс между скоростью и интеллектом, отлично справляется с большими объемами данных, может составить товарные рекомендации, прогнозы, работает с таргетированным маркетингом, генерирует код, анализирует текст.
Claude 3 Haiku, самая слабая модель из новых от Anthropic, может генерировать контент, делать переводы, имитировать взаимодействие с людьми, извлекать выводы из неструктурированных данных.
Кроме того, Anthropic представила новую модель Claude 3.5 Sonnet, которая почти по всем тестам обгоняет GPT-4o: она лучше пишет текст, код, действует более «человечно». Мы тестировали ранее вышедшую версию Claude 3 Opus, но к моменту выпуска статьи уже был релиз версии Claude 3.5 Sonnet, которую также оперативно добавили на BotHub.
Выбираем нейросеть под разные задачи
Чтобы протестировать разные модели и не платить за каждую, мы использовали BotHub, который в одном окне дает доступ к 8 нейросетям.
Если нужно сгенерировать текст
Лучше выбирать модели с неплохим русским языком, и в этом случае Claude 3 Opus справляется лучше. Из преимуществ:
- Четко формулирует мысль в пределах абзаца, а не пары предложений.
- Практически не делает путаницы в выражениях, как например, «мужчина и женщина сблизились» и «мужчина и женщина приблизились».
- Почти нет повторов слов с синонимами (например «чувств и эмоций», «интересов и увлечений»).
- Не употребляет неуместных и гипертрофированных сравнений.
- Не придумывает новые слова, в тексте отсутствуют переведенные англицизмы и спорные сленговые выражения.
- Практически не делает оговорок «по моему мнению», «вероятно», «может быть». Другими словами, модель не пытается снять с себя ответственность за правдивость текста.
Минусы:
- Делает короткие предложения.
- Генерирует текст немного медленно, но не особо критично.
- Переспам ключевыми словами присутствует, но его значительно меньше, чем у GPT-4.
- Проблема с причастными и деепричастными оборотами никуда не делась.
Если нужна работа с большими файлами
В этом случае нужно смотреть на размер контекста модели. Чем он больше, тем больше данных можно вставить для обработки. В этом плане эволюция LLM идет семимильными шагами: в июне 2023 у базовой ChatGPT было 4096 токенов, у GPT-4 – 8000 токенов, а сейчас у GPT-4-Turbo уже 128К.
Но самый большой контекст у Claude 3. В этом вопросе Anthropic, пытаясь конкурировать с OpenAI, очень постаралась: теперь у ее серии 200К токенов.
Если нужна работа с юридическими документами
Приятно удивило качество работы с юридическими документами через BotHub. Если выбрать Claude 3 Opus, настроить в готовых ролях «Правовой анализ» и сделать запрос, приложив договор, то на выходе будет ревью высокого качества.
Если нужен перевод текста
Перевод от Claude 3 Opus сопоставим с DeepL. Хорошо сохраняется художественность текста. Если же нужен недорогой вариант, то подойдет Claude 3 Haiku.
Если нужен сторителлинг (художественный текст) или ролеплей (выдуманный персонаж)
Если ролеплеить с ChatGPT, то ответы получаются более «механическими». Для этого больше подойдет Claude, особенно если учитывать, что он хорошо работает с художественными текстами. Кроме того, играет роль контекст в 200К, так что даже если диалог получится большим, модель помнит, о чем была речь в самом начале.
Если на промт, нейросеть выдает постоянно «Я – языковая модель и не могу помочь с этим», то есть смысл поработать с опенсорсными моделями. Хотя они натренированы на английском языке, качество неплохое, но это может быть некомфортно.
Если нужно программирование
Если использовать для написания кода ChatGPT, придется править вручную мелкие ошибки. С GPT-4-Turbo работать уже лучше, особенно если грамотно составить промт с задачей. Он справится с объемным кодом. В этом впросе с Claude 3 придется поэкспериментировать.
Что дальше
Во-первых, однозначно OpenAI не может мириться с тем, что Anthropic опережает по показателям со своим Claude 3 Opus. Нейросети быстро развиваются, за год это третий качественный скачок: GPT 3,5 — GPT 4 — Claude 3. В LLM-сообществе ожидают GPT-5, которая компенсирует отставание или, как минимум, будет не хуже.
Во-вторых, стоимость уникального контента стремительно снижается, и пока не совсем понятно, как на это будут реагировать поисковые системы и пользователи. Вероятнее всего будут учитываться поведенческие факторы. Главной задачей на следующий год станет разработка модели «вторичной ценности контента», т.е. придется придумывать, как сделать свой контент лучше среди в целом неплохих сгенерированных текстов.
В целом, лучше выбирать модели с русским языком, большим контекстом и не «механическими» ответами. По тестам «Компьютерры», Claude 3 Opus лучше справляется с генерацией текста, работой с большими файлами (в том числе и юридическими документами), сторителлингом и ролеплеем.