GPT-4 Vision: 10 удивительных примеров использования

Выход GPT-4 Vision от OpenAI вызвал особый ажиотаж в интернете, так как эта мультимодальная версия ChatGPT может понимать изображения. В статье рассмотрим, на что способен GPT-4 Vision: написать приложение, угадать количество объектов по фото, определить съедобное растение или геолокацию, порекомендовать похожий сериал и другое.

глаза

Посчитать бусины в банке

Логическая/математическая задача: может ли GPT-4 оценить количество бусин в банке по картинке?

банка с шариками и бусинками
Источник: eurekalert.org

На фотографии выше изображены банки, наполненные шариками и бусинками. Количество шариков на картинке — 659, а бусин — 27 852.

Теперь воспользуемся второй банкой, которую держит человек на изображении ниже.

человек держит банку с бусинами
Источник: eurekalert.org

На фотографии изображена большая банка, наполненная бусинами. Сначала GPT-4 пошагово разобрал задачу: оценил объем банки, исходя из размера головы мужчины, оценил размер бусин по сравнению с деталями его рубашки, а затем вычислил приблизительное количество бусин.

рассуждения GPT-4

рассуждения GPT

Его первоначальная догадка оказалась близка к реальному числу. Но следующие попытки показали, что оценка сильно варьируется. Это доказывает, что модель еще не может идеально решать визуальные логические головоломки. Но впечатляет, что она уже пытается это делать.

Собрать мебель

Какой из этих стульев собрал ChatGPT? Ответ: он справа.

Какой из этих стульев собрал ChatGPT?

Британский художник Джеймс Бридл провел эксперимент и оценил, какой из ChatGPT выйдет столяр: он попросил нейросеть написать инструкцию для изготовления стула и детально прописал размеры досок и инструменты, которые были под рукой.

Нейросеть сгенерировала подробное руководство, причем так, чтобы использовать материалы с минимумом отходов. По этой инструкции Джеймс собрал стул. Стоит отметить, что результат неплохой. Единственный минус: в промте было прописано, что мебель должна быть с безумным дизайном, а ChatGPT выдал консервативный вариант.

Объяснить схему из видеоролика на YouTube

схема из видеоролика

Сможет ли GPT-4 объяснить концепцию на основе скриншота видеоролика с YouTube? Он проанализировал весь текст и диаграммы и предоставил подробное описание обсуждаемых методов подсказок. Так что GPT-4 полезен для изучения сложных тем из видео или статей.

Дать рекомендации по игрокам в футболе

Таблица со статистикой игроков

Что если предоставить GPT-4 турнирные таблицы футбольной лиги, расписания и статистику игроков в виде изображения? Так и сделали, а потом попросили дать совет по фэнтези-футболу: на каких защитников стоит ориентироваться в ближайшие недели. Впечатляюще, но GPT-4 проанализировал изображения, определил сильных игроков и дал обоснованные рекомендации на основе полученных данных.

Создать приложения на основе нарисованной от руки схемы

Для начала энтузиаст сделал простой набросок в блокноте, сфотографировал его и попросил GPT-4 создать реальное приложение на основе этого изображения.

схема для приложения

Примечательно, что он сгенерировал полный код фронтенда на HTML/CSS/JS, а также бэкенд на Python, использующий API OpenAI. После копирования кода в файлы у него было рабочее приложение, в котором можно отправить текстовый запрос и получить ответ GPT. И все это на основе той схемы, нарисованной на скорую руку.

Ответ после запроса
Ответ после запроса
Код для бэкенда приложения
Код для бэкенда приложения
Код для фронтенда приложения
Код для фронтенда приложения

После он запустил приложение. Вот результат:

Запуск программы
Запуск программы

А вот так выглядит интерфейс приложения:

интерфейс приложения

Создать веб-сайт на основе изображения

Энтузиаст нарисовал в блокноте простой макет сайта с полями для заголовка и основного содержимого, а потом попросил GPT-4 сгенерировать HTML/CSS и JS для сайта на тему хакеров 90-х годов на основе этого эскиза.

схема сайта

Он выдал корректный код для работающего ретро-сайта. Так что ИИ может создавать базовые веб-сайты прямо на основе простых рисунков и описаний.

полученный сайт

Выбрать место для кемпинга

Для проверки способности GPT-4 к рассуждениям, выбрали две фотографии: одна — густого леса, другая — места на берегу реки. Пользователь попросил оценить локации и выбрать лучшее место для ночного лагеря, основываясь на опыте выживания.

две фотографии

ИИ предоставил подробную оценку плюсов и минусов обоих мест, принимая во внимание такие факторы, как укрытие, ресурсы и опасности. Он порекомендовал разбить лагерь на опушке леса у реки, объединив преимущества обоих мест.

плюсы и минусы

Определять цветы и съедобные дикорастущие растения

Допустим, в походе вы наткнулись на ярко-красные ягоды. Если сфотографировать их и спросить у GPT-4, он правильно определит, что это. Например, он определил шиповник и объяснил, что ягоды съедобные.

ягоды

С цветами ситуация аналогичная — GPT-4 может безошибочно классифицировать их по визуальным признакам:

цветы

Определить геолокацию по фото

Фотография с видом на горы

Путешественник загрузил фотографию, сделанную на вершине горы, когда он был в походе в Норвегии. GPT-4 визуально оценил пейзаж и правильно определил географический регион, поскольку местность соответствует Скандинавии, в частности западной Норвегии. Это показывает, как машинное зрение может применяться для определения географического положения, как в вирусной онлайн-игре GeoGuessr.

Подобрать фильм

Если показать GPT-4 скриншот из сериала «Офис» и попросить порекомендовать похожее, то ИИ выдаст список популярных ситкомов, похожих на этот, основываясь исключительно на распознавании контекста этого единственного изображения.

кадр из сериала

ИИ выдал список популярных ситкомов

А это означает, что модель может давать релевантные рекомендации во многих областях — от развлечений до покупок, путешествий и другого.

ЧИТАТЬ ЕЩЕ:

Как используют уязвимость GPT-4V: атаки через изображения

Почему модели искусственного интеллекта так плохо разбираются в правописании

Эмоциональное манипулирование, взятка и забота: новые лайфхаки для промтов

Что будем искать? Например,ChatGPT

Мы в социальных сетях