Google DeepMind анонсировал две новые модели на базе Gemini 2.0 — Gemini Robotics и Gemini Robotics-ER, которые расширяют возможности роботов для выполнения задач в реальном мире.
Google DeepMind представила две новые модели искусственного интеллекта на базе Gemini 2.0, предназначенные для робототехники. Эти модели, Gemini Robotics и Gemini Robotics-ER, разработаны для расширения возможностей роботов в выполнении задач в реальном мире.
Gemini Robotics — это усовершенствованная модель «зрение-язык-действие» (VLA), которая добавляет физические действия к мультимодальным способностям Gemini 2.0, позволяя напрямую управлять роботами. Gemini Robotics-ER, в свою очередь, предлагает улучшенное пространственное понимание, что позволяет робототехникам использовать возможности Gemini для воплощенного рассуждения (ER) в своих проектах.
Компания сотрудничает с Apptronik для создания нового поколения человекоподобных роботов, а также работает с доверенными тестировщиками для дальнейшего развития технологий. Эти модели открывают новые перспективы для применения ИИ в физическом мире, делая роботов более полезными и эффективными.
Чтобы быть полезными, роботы с ИИ должны быть универсальными (адаптироваться к разным ситуациям), интерактивными (быстро реагировать на изменения) и ловкими (уметь манипулировать предметами). Gemini Robotics делает значительный шаг вперед в этих направлениях, приближая создание универсальных роботов. Google подчеркивает, что новые модели позволяют создавать роботов, способных самостоятельно анализировать и выполнять задачи в физическом мире. Это включает перемещение, решение логических задач, выполнение бытовых функций, взаимодействие с людьми и анализ изменений в окружающей среде.