OpenAI представила улучшенную версию GPT-4 Turbo с возможностями Vision. Чат-бот доступен через API. Компания также анонсировала новые ИИ-инструменты на базе GPT-4 Turbo с Vision.
OpenAI объявила о существенном улучшении своей последней модели искусственного интеллекта — GPT-4 Turbo.
Обновление GPT-4 Turbo
Модель GPT-4 Turbo теперь оснащена возможностями компьютерного зрения, что позволяет ей обрабатывать и анализировать входные мультимедийные данные.
Чат-бот может отвечать на вопросы об изображении, видео и многом другом. Компания также представила несколько ИИ-инструментов, работающих на GPT-4 Turbo с Vision, включая помощника по программированию Devin и функцию Snap от Healthify.
«Значительно улучшенная модель GPT-4 Turbo теперь доступна в API и распространяется в ChatGPT».
Ранее модель с Vision могла отвечать на общие вопросы о том, что присутствует на изображениях. Сейчас она оптимизирована для ответа о конкретных деталях.
Что может сделать GPT-4 Turbo с Vision?
Некоторые пользователи, включая разработчиков OpenAI, поделились соображениями о возможностях модели после ее тестирования. Среди них:
- Извлечение неструктурированного текста и изображений в таблицы базы данных. Пользователь по имени Саймон Уиллисон отправил в чат-бот изображение и извлек все тексты с него.
- Написание кода на основе чертежа интерфейса. Разработчики OpenAI отметили, что GPT-4 Turbo с Vision может помочь написать код в Make Real для создания работающего веб-сайта.
- Разнообразные задачи кодирования. Первый в мире автономный агент искусственного интеллекта для кодирования Devin также работает на GPT-4 Turbo Vision.
- Определение состава и калорийности пищи по фотографии. Healthify, крупнейшее в мире приложение для здоровья и фитнеса, использовало возможности GPT-4 Turbo с Vision для создания функции Snap. Она помогает пользователям получать информацию о питательных веществах на основе изображений продуктов со всего мира.
- Извлечение веб-данных. Kadoa использует возможности GPT-4 Turbo с Vision для автоматизации конкретных задач веб-очистки и RPA, которые не работают только с текстовым представлением.
- Создание новостей. Combinator, американский акселератор технологических стартапов, поделился тем, как его специалисты создают пользовательский интерфейс шаблонов для новостей о хакерах с помощью GPT-4 Turbo с Vision.
- Преобразование макетов в функциональные интерактивные панели. Хароен Вермилен, эксперт по визуализации данных из Luzmo, объявил, что они используют API GPT-4 Turbo с Vision для запуска Instach.art, инструмента для преобразования макета Figma в полнофункциональную интерактивную панель с демонстрационными данными.
Расширенные возможности GPT-4 Turbo с системой Vision позволяют добиться успеха с несколькими вариантами использования и функциями, которые раньше были невозможны.