Представлена новая разработка Gemini Robotics на базе мультимодальной модели Gemini 2.0.
Компания Google DeepMind создала две уникальные системы: Gemini Robotics и Gemini Robotics-ER (Embodied Reasoning), которые выводят взаимодействие искусственного интеллекта с физическим миром на принципиально новый уровень.
Gemini Robotics обладает следующими особенностями:
- Воплощенное мышление — это не просто управление роботами, а полноценная когнитивная структура, способная к воплощенному рассуждению. Роботы способны не только видеть предметы, но и понимать их пространственное расположение, функциональность и контекст ситуации.
- Обучение с нулевым или малым числом примеров (Zero-Shot и Few-Shot) — возможность выполнения задач без предварительного обучения или с минимальным объемом тренировочных данных.
- Физическое выполнение команд как новая модальность — система способна интерпретировать абстрактные инструкции и превращать их в конкретные кинематические траектории.
- Долговременная память, позволяющая роботам запоминать и применять длинные цепочки действий и наблюдений на протяжении долгого периода времени.
- Перенос знаний из симулятора в реальный мир — значительная часть обучения проходит в виртуальных условиях, однако технология Adaptive Domain Randomization помогает модели эффективно адаптироваться к реальности.
- Микро-коррекция движений — роботы могут корректировать свои движения в режиме реального времени на основе сенсорной обратной связи.
- Этическая основа через "Constitutional AI" — DeepMind внедрил в Gemini Robotics механизм автоматической генерации "конституционных" правил на естественном языке, управляющих поведением роботов.
- Модульная архитектура, позволяющая легко адаптировать систему под разные роботизированные платформы без полной перенастройки.
Чем отличается от конкурентов?
Некоторые компании, такие как Figure AI, Boston Dynamics и Tesla, работают над схожими разработками, но по сочетанию всех вышеперечисленных функций и степени интеграции LLM с физическими действиями Gemini Robotics значительно опережает их.
Также стоит отметить Hi Robot от Physical Intelligence (компания, основанная бывшими сотрудниками Google), который предлагает передовую антропоморфную технологию с внутренним голосовым управлением.
Трудно однозначно определить лидера, поскольку оба проекта развиваются в разных направлениях. Hi Robot выделяется своими новаторскими решениями в области когнитивных архитектур, тогда как Gemini Robotics впечатляет масштабностью возможностей и многообразием решаемых задач.
Оба подхода демонстрируют, каким будет будущее развития ИИ и робототехники.