Alibaba представила новую модель Qwen2.5-Max, построенную на архитектуре Mixture-of-Experts (MoE). Она прошла предварительное обучение на 20+ триллионах токенов и дополнительно дообучена с использованием методов контролируемого обучения (SFT) и обучения с подкреплением на основе обратной связи от человека (RLHF).
«На первый взгляд Qwen выглядит как привычный чат-бот, интерфейс интуитивно понятен. Сервис доступен в России, регистрация проходит через почту/пароль или аккаунт Gmail. Модель уже интегрирована в API Alibaba Cloud, и его можно использовать с территории России», — поясняет Кирилл Пшинник, сооснователь и CEO онлайн-университета «Зерокодер».
Какой результат у Qwen2.5-Max в бенчмарках
В тестах, таких как MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard, Qwen2.5-Max продемонстрировала превосходство над моделями DeepSeek V3, GPT-4o и Claude-3.5-Sonnet.
Что тестируют бенчмарки?
- MMLU (Massive Multitask Language Understanding) и MMLU-Pro — это тесты, проверяющие умение модели рассуждать. Бенчмарк включает более 12 000 вопросов из академических экзаменов и учебников по 14 дисциплинам, включая биологию, бизнес, химию, экономику, право, философию, математику и другие.
- LiveCodeBench — бенчмарк для оценки навыков программирования. Он постоянно обновляется, собирая задачи с LeetCode, AtCoder и CodeForces, что делает тесты более актуальными.
- Arena-Hard — автоматизированная система оценки качества ответов, использующая метод LLM-as-a-Judge (модель как судья). Она показывает высокую корреляцию с человеческими оценками и помогает объективно сравнивать нейросети.
Кирилл Пшинник поясняет, что «часто модели сравнивают именно по этим бенчмаркам. Однако важно помнить, что принцип работы трансформеров заключается в предсказании следующего токена (слова). Например, когда мы спрашиваем у нейросети: «Сколько будет 2+2?». Она выдает «4» не потому, что просчитала ответ, а потому, что в ее обучающей выборке миллионы раз встречался этот вопрос с таким ответом. Это легко проверить, если попросить ее сложить два больших числа — модель часто ошибается».
Почему бенчмарки не всегда показательны?
Эта проблема была очевидна давно, поэтому в 2023 году OpenAI добавила в ChatGPT плагины, позволяющие подключать его к сторонним сервисам, таким как Wolfram Alpha для сложных вычислений и интернет-поиск для актуальной информации. Позже OpenAI изменила стратегию: убрала плагины, добавила поиск в интернете, добавила исполнение Python-кода прямо в чате для математических задач.
«Этот функционал есть только в чат-боте ChatGPT, но его нет в модели GPT-4o, доступной через API, а в бенчмарках сравниваются именно модели. То есть, когда мы видим таблицы с результатами тестов, это не всегда отражает реальный пользовательский опыт, ведь в реальной жизни нейросети используют не только модель, но и дополнительные сервисы».
Кирилл Пшинник, сооснователь и CEO онлайн-университета «Зерокодер»
Qwen2.5-Max против DeepSeek-V3
В сравнении с DeepSeek-V3 новая модель от Alibaba показывает превосходство в тестах — разница составляет несколько пунктов. Однако в реальной работе это почти не ощущается. Например:
- В текстовых задачах Qwen2.5-Max формально сильнее, но субъективно уступает ChatGPT и DeepSeek.
- При написании текстов модель показала себя хуже, чем ChatGPT и DeepSeek.
- Qwen2.5-Max активно модерирует свои ответы, особенно на чувствительные темы.
«Выход любой новой нейросети — это хорошая новость. Чем больше доступных моделей, тем больше выбор у пользователей. Более того, Qwen2.5-Max распространяется в формате Open Source, что позволяет компаниям скачивать, развертывать и обучать модель на своих данных, адаптируя её под конкретные задачи».
Кирилл Пшинник, сооснователь и CEO онлайн-университета «Зерокодер»
Хотя бенчмарки дают количественные метрики, они не всегда отражают реальное качество работы модели. На практике решает не только уровень модели, но и инструменты, которые ее дополняют.