Google делают из Gemini универсального ИИ-агента, теперь можно задавать вопросы через видео

Google представили новые функции, такие как Screenshare и возможность задавать вопросы через видео, Gemini может обрабатывать не только текст, но и визуальную информацию в реальном времени — будь то содержимое экрана или окружающий мир через камеру.

Это делает его более универсальным, так как он "видит" и "понимает" контекст, подобно человеку. Ещё в декабре 2024 года Google представила Project Marinerа — прототип ИИ-агента на базе Gemini, который способен автономно управлять браузером, кликать по кнопкам, заполнять формы и выполнять задачи в интернете.

Это шаг к "agentic AI" — системам, которые не просто отвечают, а действуют от имени пользователя. Project Astra - ещё один прототип, позиционируется как универсальный помощник, который может давать советы, отвечать на вопросы о том, что видит через камеру, и даже работать с такими инструментами, как Google Search и Maps. Обновления в Gemini 2.0, включая улучшенную память и диалог на нескольких языках, усиливают эту универсальность.

Вторая функция, которая была представлена позволяет снимать видео и задавать вопросы Gemini прямо во время съемки. Google анонсировала эту возможность еще на Google I/O в прошлом году, и теперь она становится реальностью.

Обе функции будут доступны пользователям подписки Gemini Advanced (в рамках плана Google One AI Premium) на устройствах Android. Развертывание начнется позже в марте 2025 года.

Вы здесь

Google делают из Gemini универсального ИИ-агента, теперь можно задавать вопросы через видео