GPT-4 получит функцию работы с изображениями

Google на пороге выпуска Gemini — мультимодельной языковой модели, способной составить конкуренцию GPT-4 от OpenAI. Тем не менее, согласно слухам, OpenAI уже разрабатывает свой ответ на этот вызов.

Одно из первых изображений, предположительно созданных при помощи DALL-E 3

Что известно

Источник The Information сообщает, что OpenAI намерена представить функционал понимания изображений для GPT-4. Эта мультимодельная способность была анонсирована в рамках презентации GPT-4 и стала одним из её ярких моментов. Демо-сессия, в ходе которой GPT-4 создавала код веб-страницы, опираясь лишь на её рисунок, вызвала широкий резонанс в обществе.

Однако на текущий момент функция понимания изображений доступна ограниченному кругу тестовых пользователей и некоторым приложениям. Согласно июльскому отчету в New York Times, OpenAI выражает опасения относительно возможного неправомерного использования этой функции, в частности, в целях распознавания лиц. В связи с этим OpenAI ограничила возможность описания людей в приложении.

В преддверии запланированного выпуска мультимодельной ИИ-модели Gemini от Google в этом сезоне, появились сообщения о том, что OpenAI намерена предложить более широкий доступ к функции понимания изображений, известной как «GPT-Vision». Это позволит GPT-4 находить применение в новых приложениях, связанных с изображениями, таких как создание текстовых описаний для графического контента.

Также распространяются слухи о том, что DALL-E 3, находящийся в стадии разработки, может быть интегрирован в ChatGPT или GPT-4. Возможное объединение нового инструмента обработки изображений с анонсом GPT-Vision выглядит перспективным. Первые изображения, предположительно созданные при помощи DALL-E 3, показывают впечатляющие результаты, превосходящие достижения DALL-E 2.

Текст действительно присутствуют в исходной подсказке: «Изображение ангела, который держит в руках солнце и луну. Над головой ангела надпись: «НЕ БОЙСЯ». На фоне — величественная картина вселенной. Фэнтези, разрешение 8K, выполнено с душой и вдохновением».

Нововведения для GPT-4 могут быть анонсированы на однодневной конференции для разработчиков, которую OpenAI проведет 6 ноября. Исполнительный директор OpenAI, Сэм Альтман, заявил, что участников конференции ждет «множество интересного», но масштаб события не сравнится с анонсами таких продуктов как GPT-4.5 или GPT-5.

Почему это важно

Компания акцентирует внимание на «новых инструментах», которые планирует представить. В этом контексте GPT-Vision и DALL-E 3 сохраняют свою актуальность, и их анонс может стать своевременным ответом на действия Google. DALL-E 2, безусловно, требует модернизации, особенно учитывая, что такие решения, как Midjourney, Stable Diffusion и Ideogram, уже обошли его по ряду параметров.

По данным издания The Information, OpenAI рассматривает возможность разработки новой ИИ-модели, которая получила кодовое имя «Gobi». Эта модель изначально разрабатывается как мультимодальное решение. Работы по обучению Gobi пока не начались, и существует вероятность, что она может лечь в основу будущего GPT-5.

Подписывайтесь на наш Telegram Подписаться