OpenAI представила новую модель искусственного интеллекта

OpenAI анонсировала новую модель ИИ — GPT-4o. Она обладает мультимодальностью, позволяя работать не только с текстом, но и с изображениями, видео и аудио. В ближайшее время чат-бот с моделью станет доступен всем пользователям ChatGPT, а пока она представлена в виде API.

Компания OpenAI продолжает лидировать в сфере искусственного интеллекта, представив свою новейшую модель GPT-4o. Она способна вести реалистичные голосовые разговоры, а также взаимодействовать с текстом и изображениями, что является значительным шагом в технологической гонке.

Об анонсе

Вчера, 13 мая, на онлайн-мероприятии исследователи OpenAI продемонстрировали возможности ИИ-помощника ChatGPT, основанного на модели GPT-4o.

В одной из демонстраций чат-бот использовал систему распознавания и голосовые возможности для решения математического уравнения с листа бумаги. В другой демонстрации была показана способность модели переводить текст на другие языки в режиме реального времени.

«Это похоже на ИИ из фильмов… Общение с компьютером никогда не было для меня по-настоящему естественным. Теперь это так».

Сэм Альтман, генеральный директор OpenAI

Технический директор OpenAI Мира Мурати заявила, что новая модель будет предлагаться бесплатно, так как она более экономична по сравнению с предыдущими версиями.

Также компания объявила о запуске приложения ChatGPT для ПК на базе macOS, которое будет доступно как для платных пользователей, так и для тех, у кого нет подписки. В конце этого года планируется выпуск аналогичного приложения для Windows.

На фоне этих новостей акции Alphabet снизились на 0,4%, а акции Microsoft упали на 0,2%.

О новой модели GPT-4o

Главная особенность GPT-4o заключается в ее мультимодальности. Изначально обученная не только на текстах, но и на изображениях, видео и аудио, она значительно превосходит GPT-4 по всем параметрам.

Согласно традиционным тестовым показателям, GPT-4o обеспечивает производительность на уровне GPT-4 Turbo в области обработки текста, рассуждений и кодирования, обеспечивая при этом новые высокие показатели в области многоязычия.

OpenAI отметила, что GPT-4o установила новый рекорд в 88,7% баллов по COT MMLU. Кроме того, на традиционном 5-кадровом MMLU без CoT GPT-4o получила оценку в 87,2%.

Бесплатные пользователи ChatGPT теперь могут воспользоваться функцией «обзор», которая предоставляет доступ к актуальной информации из интернета.

По работе с изображениями GPT-4o может:

генерировать и изменять сгенерированные изображения, в зависимости от контекста;
генерировать персонажей и изменять их внешний вид, положение и фон;
создавать изображения из нескольких фотографий людей;
генерировать карикатуры по фотографии;
создавать шрифты на основе текстового промта;
делать 3D-рендеринг по группе сгенерированных изображений;
создавать логотипы и наносить их на мокапы;
переносить написанный текст на изображение бумаги;
создавать комиксы с текстовыми выносками;
менять фон изображений;
решать задачи и отвечать на вопросы с изображения;
генерировать изображение с текстом, размещенным по определенной траектории.

В работе с аудио и видео модель может распознавать текст и музыку, осуществлять транскрибацию, представлять краткий пересказ, решать задачи и давать советы на основе визуализации.

Кроме того, среди новых функций GPT-4o — аудиосвязь, которая позволяет пользователям вести разговор с ChatGPT в режиме реального времени без задержек и даже прерывать его, когда это необходимо. Модель умеет распознавать интонации, шутить и моментально переводить реплики на другие языки.

В ближайшее время GPT-4o станет доступна всем пользователям ChatGPT, а пока она представлена в виде API.

Подписывайтесь на наш Telegram Подписаться