Google на пороге выпуска Gemini — мультимодельной языковой модели, способной составить конкуренцию GPT-4 от OpenAI. Тем не менее, согласно слухам, OpenAI уже разрабатывает свой ответ на этот вызов.
Что известно
Источник The Information сообщает, что OpenAI намерена представить функционал понимания изображений для GPT-4. Эта мультимодельная способность была анонсирована в рамках презентации GPT-4 и стала одним из её ярких моментов. Демо-сессия, в ходе которой GPT-4 создавала код веб-страницы, опираясь лишь на её рисунок, вызвала широкий резонанс в обществе.
Однако на текущий момент функция понимания изображений доступна ограниченному кругу тестовых пользователей и некоторым приложениям. Согласно июльскому отчету в New York Times, OpenAI выражает опасения относительно возможного неправомерного использования этой функции, в частности, в целях распознавания лиц. В связи с этим OpenAI ограничила возможность описания людей в приложении.
В преддверии запланированного выпуска мультимодельной ИИ-модели Gemini от Google в этом сезоне, появились сообщения о том, что OpenAI намерена предложить более широкий доступ к функции понимания изображений, известной как «GPT-Vision». Это позволит GPT-4 находить применение в новых приложениях, связанных с изображениями, таких как создание текстовых описаний для графического контента.
Также распространяются слухи о том, что DALL-E 3, находящийся в стадии разработки, может быть интегрирован в ChatGPT или GPT-4. Возможное объединение нового инструмента обработки изображений с анонсом GPT-Vision выглядит перспективным. Первые изображения, предположительно созданные при помощи DALL-E 3, показывают впечатляющие результаты, превосходящие достижения DALL-E 2.
Текст действительно присутствуют в исходной подсказке: «Изображение ангела, который держит в руках солнце и луну. Над головой ангела надпись: «НЕ БОЙСЯ». На фоне — величественная картина вселенной. Фэнтези, разрешение 8K, выполнено с душой и вдохновением».
Нововведения для GPT-4 могут быть анонсированы на однодневной конференции для разработчиков, которую OpenAI проведет 6 ноября. Исполнительный директор OpenAI, Сэм Альтман, заявил, что участников конференции ждет «множество интересного», но масштаб события не сравнится с анонсами таких продуктов как GPT-4.5 или GPT-5.
Почему это важно
Компания акцентирует внимание на «новых инструментах», которые планирует представить. В этом контексте GPT-Vision и DALL-E 3 сохраняют свою актуальность, и их анонс может стать своевременным ответом на действия Google. DALL-E 2, безусловно, требует модернизации, особенно учитывая, что такие решения, как Midjourney, Stable Diffusion и Ideogram, уже обошли его по ряду параметров.
По данным издания The Information, OpenAI рассматривает возможность разработки новой ИИ-модели, которая получила кодовое имя «Gobi». Эта модель изначально разрабатывается как мультимодальное решение. Работы по обучению Gobi пока не начались, и существует вероятность, что она может лечь в основу будущего GPT-5.