OpenAI анонсировала новую модель ИИ — GPT-4o. Она обладает мультимодальностью, позволяя работать не только с текстом, но и с изображениями, видео и аудио. В ближайшее время чат-бот с моделью станет доступен всем пользователям ChatGPT, а пока она представлена в виде API.
Компания OpenAI продолжает лидировать в сфере искусственного интеллекта, представив свою новейшую модель GPT-4o. Она способна вести реалистичные голосовые разговоры, а также взаимодействовать с текстом и изображениями, что является значительным шагом в технологической гонке.
Об анонсе
Вчера, 13 мая, на онлайн-мероприятии исследователи OpenAI продемонстрировали возможности ИИ-помощника ChatGPT, основанного на модели GPT-4o.
В одной из демонстраций чат-бот использовал систему распознавания и голосовые возможности для решения математического уравнения с листа бумаги. В другой демонстрации была показана способность модели переводить текст на другие языки в режиме реального времени.
«Это похоже на ИИ из фильмов… Общение с компьютером никогда не было для меня по-настоящему естественным. Теперь это так».
Сэм Альтман, генеральный директор OpenAI
Технический директор OpenAI Мира Мурати заявила, что новая модель будет предлагаться бесплатно, так как она более экономична по сравнению с предыдущими версиями.
Также компания объявила о запуске приложения ChatGPT для ПК на базе macOS, которое будет доступно как для платных пользователей, так и для тех, у кого нет подписки. В конце этого года планируется выпуск аналогичного приложения для Windows.
На фоне этих новостей акции Alphabet снизились на 0,4%, а акции Microsoft упали на 0,2%.
О новой модели GPT-4o
Главная особенность GPT-4o заключается в ее мультимодальности. Изначально обученная не только на текстах, но и на изображениях, видео и аудио, она значительно превосходит GPT-4 по всем параметрам.
Согласно традиционным тестовым показателям, GPT-4o обеспечивает производительность на уровне GPT-4 Turbo в области обработки текста, рассуждений и кодирования, обеспечивая при этом новые высокие показатели в области многоязычия.
OpenAI отметила, что GPT-4o установила новый рекорд в 88,7% баллов по COT MMLU. Кроме того, на традиционном 5-кадровом MMLU без CoT GPT-4o получила оценку в 87,2%.
Бесплатные пользователи ChatGPT теперь могут воспользоваться функцией «обзор», которая предоставляет доступ к актуальной информации из интернета.
По работе с изображениями GPT-4o может:
- генерировать и изменять сгенерированные изображения, в зависимости от контекста;
- генерировать персонажей и изменять их внешний вид, положение и фон;
- создавать изображения из нескольких фотографий людей;
- генерировать карикатуры по фотографии;
- создавать шрифты на основе текстового промта;
- делать 3D-рендеринг по группе сгенерированных изображений;
- создавать логотипы и наносить их на мокапы;
- переносить написанный текст на изображение бумаги;
- создавать комиксы с текстовыми выносками;
- менять фон изображений;
- решать задачи и отвечать на вопросы с изображения;
- генерировать изображение с текстом, размещенным по определенной траектории.
В работе с аудио и видео модель может распознавать текст и музыку, осуществлять транскрибацию, представлять краткий пересказ, решать задачи и давать советы на основе визуализации.
Кроме того, среди новых функций GPT-4o — аудиосвязь, которая позволяет пользователям вести разговор с ChatGPT в режиме реального времени без задержек и даже прерывать его, когда это необходимо. Модель умеет распознавать интонации, шутить и моментально переводить реплики на другие языки.
В ближайшее время GPT-4o станет доступна всем пользователям ChatGPT, а пока она представлена в виде API.