Сравнение GPT-4 и Claude 3: что выбрать для работы с текстом, файлами и кодом

Хотя сейчас рекламируют ChatGPT и GPT-4 Turbo, существуют и другие большие языковые модели (LLM), причем на практике некоторые из них более эффективны. Конкурент OpenAI, компания Anthropic представила миру Claude 3.5 Sonnet, которая по генерации текстов, идей, кода обгоняет ChatGPT.

В статье «Компьютерра» решила сравнить Claude 3 Opus и GPT-4 Turbo, и для этого протестировали нейросети по разным задачам, используя агрегатор BotHub, который предоставляет доступ к нужным нам моделям.

робот перед ноутбуком

Не ChatGPT единым: главные конкуренты в мире нейросетей 

ChatGPT — не феномен, а только одна из нескольких больших языковых моделей. У него есть как преимущества (точность, большая база, стоимость использования), так и ограничения, и особенно это неспособность выполнять некоторые языковые задачи на высоком уровне.

При выборе нейросети, нужно учитывать конкретные задачи и оценивать, справится ли модель с ними с учетом ее сильных и слабых сторон. Если у OpenAI фокус на исследованиях, то в Anthropic сосредоточились на разработке ИИ для практичных решений, поэтому их модель подойдет для бизнес-задач. 

Claude 3 Opus, самая «умная» модель от Anthropic, обгоняет аналоги, в том числе и GPT-4, по большинству основных бенчмарков:

  • экспертным знаниям на уровне бакалавриата (MMLU);
  • экспертному мышлению на уровне выпускника (GPQA);
  • базовой математике (GSM8K) и др.

Claude 3 Opus, самая «умная» модель от Anthropic, обгоняет аналоги, в том числе и GPT-4

По словам разработчиков, Opus «демонстрирует почти человеческий уровень понимания и беглости в решении сложных задач». Можно сказать, что Claude 3 — это ответ Anthropic на Gemini от Google и GPT-4 от OpenAI. И похоже, что в этой гонке Claude 3 вырывается вперед.

Удивительный факт: Claude 3 прошла тест на IQ лучше, чем среднестатистический человек. Журналист Максим Лотт провел эксперимент, в котором нейросети отвечали на вопросы IQ-теста. Самым умным ИИ стала Claude-3: модель показала результат в 101 балл. Для сравнения: у  среднестатистического человека IQ 85 — 115. 

Claude 3 прошла тест на IQ лучше, чем среднестатистический человек

Полезные для бизнеса возможности Claude 3 Opus:

  • автоматизация задач;
  • мозговой штурм;
  • анализ графиков, диаграмм, различных показателей;
  • прогнозирование.

Модель послабее, Claude 3 Sonnet, в свою очередь представляет идеальный баланс между скоростью и интеллектом, отлично справляется с большими объемами данных, может составить товарные рекомендации, прогнозы, работает с таргетированным маркетингом, генерирует код, анализирует текст.

Claude 3 Haiku, самая слабая модель из новых от Anthropic, может генерировать контент, делать переводы, имитировать взаимодействие с людьми, извлекать выводы из неструктурированных данных.

Anthropic представила новую модель Claude 3.5 Sonnet

Кроме того, Anthropic представила новую модель Claude 3.5 Sonnet, которая почти по всем тестам обгоняет GPT-4o: она лучше пишет текст, код, действует более «человечно». Мы тестировали ранее вышедшую версию Claude 3 Opus, но к моменту выпуска статьи уже был релиз версии Claude 3.5 Sonnet, которую также оперативно добавили на BotHub.

Выбираем нейросеть под разные задачи

Чтобы протестировать разные модели и не платить за каждую, мы использовали BotHub, который в одном окне дает доступ к 8 нейросетям.

Если нужно сгенерировать текст

Лучше выбирать модели с неплохим русским языком, и в этом случае Claude 3 Opus справляется лучше. Из преимуществ:

  • Четко формулирует мысль в пределах абзаца, а не пары предложений.
  • Практически не делает путаницы в выражениях, как например, «мужчина и женщина сблизились» и «мужчина и женщина приблизились».
  • Почти нет повторов слов с синонимами (например «чувств и эмоций», «интересов и увлечений»).
  • Не употребляет неуместных и гипертрофированных сравнений.
  • Не придумывает новые слова, в тексте отсутствуют переведенные англицизмы и спорные сленговые выражения.
  • Практически не делает оговорок «по моему мнению», «вероятно», «может быть». Другими словами, модель не пытается снять с себя ответственность за правдивость текста.

Минусы:

  • Делает короткие предложения.
  • Генерирует текст немного медленно, но не особо критично.
  • Переспам ключевыми словами присутствует, но его значительно меньше, чем у GPT-4.
  • Проблема с причастными и деепричастными оборотами никуда не делась.

Если нужна работа с большими файлами

В этом случае нужно смотреть на размер контекста модели. Чем он больше, тем больше данных можно вставить для обработки. В этом плане эволюция LLM идет семимильными шагами: в июне 2023 у базовой ChatGPT было 4096 токенов, у GPT-4 – 8000 токенов, а сейчас у GPT-4-Turbo уже 128К.

Но самый большой контекст у Claude 3. В этом вопросе Anthropic, пытаясь конкурировать с OpenAI, очень постаралась: теперь у ее серии 200К токенов. 

Если нужна работа с юридическими документами

Приятно удивило качество работы с юридическими документами через BotHub. Если выбрать Claude 3 Opus, настроить в готовых ролях «Правовой анализ» и сделать запрос, приложив договор, то на выходе будет ревью высокого качества.

Если нужен перевод текста

Перевод от Claude 3 Opus сопоставим с DeepL. Хорошо сохраняется художественность текста. Если же нужен недорогой вариант, то подойдет Claude 3 Haiku.

Если нужен сторителлинг (художественный текст) или ролеплей (выдуманный персонаж)

Если ролеплеить с ChatGPT, то ответы получаются более «механическими». Для этого больше подойдет Claude, особенно если учитывать, что он хорошо работает с художественными текстами. Кроме того, играет роль контекст в 200К, так что даже если диалог получится большим, модель помнит, о чем была речь в самом начале.

Если на промт, нейросеть выдает постоянно «Я – языковая модель и не могу помочь с этим», то есть смысл поработать с опенсорсными моделями. Хотя они натренированы на английском языке, качество неплохое, но это может быть некомфортно.

Если нужно программирование

Если использовать для написания кода ChatGPT, придется править вручную мелкие ошибки. С GPT-4-Turbo работать уже лучше, особенно если грамотно составить промт с задачей. Он справится с объемным кодом. В этом впросе с Claude 3 придется поэкспериментировать.

Что дальше

Во-первых, однозначно OpenAI не может мириться  с тем, что Anthropic опережает по показателям со своим Claude 3 Opus. Нейросети быстро развиваются, за год это третий качественный скачок: GPT 3,5 — GPT 4 — Claude 3. В LLM-сообществе ожидают GPT-5, которая компенсирует отставание или, как минимум, будет не хуже.

Во-вторых, стоимость уникального контента стремительно снижается, и пока не совсем понятно, как на это будут реагировать поисковые системы и пользователи. Вероятнее всего будут учитываться поведенческие факторы. Главной задачей на следующий год станет разработка модели «вторичной ценности контента», т.е. придется придумывать, как сделать свой контент лучше среди в целом неплохих сгенерированных текстов.

В целом, лучше выбирать модели с русским языком, большим контекстом и не «механическими» ответами. По тестам «Компьютерры», Claude 3 Opus лучше справляется с генерацией текста, работой с большими файлами (в том числе и юридическими документами), сторителлингом и ролеплеем. 

Что будем искать? Например,ChatGPT

Мы в социальных сетях