Google внедряет обновления искусственного интеллекта Gemini во все

На следующий день после разрекламированного OpenAI анонса GPT-4o , его улучшенной “омнимодальной” языковой модели большого формата, Google ответила шквалом обновлений своих предложений искусственного интеллекта Gemini, продемонстрировав свое технологическое мастерство, опираясь на преимущества живого поиска и укрепив свои позиции в противостоянии лидеру mindshare ChatGPT.

Опираясь на свои сильные стороны, Google внедряет генеративный искусственный интеллект в поисковую систему, позволяя пользователям естественным образом взаимодействовать с поисковой системой, а не полагаться на запросы, основанные на ключевых словах. Основная программа включала демонстрацию поискового запроса Google об удалении кофейных пятен. Вместо простого отображения ссылок на веб-страницы с инструкциями поисковая система немедленно предоставила исчерпывающий ответ, сгенерированный искусственным интеллектом.

Эти результаты, сгенерированные искусственным интеллектом, предназначенные для прямого и эффективного решения пользовательских запросов, будут отображаться над результатами поиска.

На протяжении всей презентации Google ясно давала понять, что ее доминирование в веб-поиске превратилось в ключевое преимущество ее инициатив в области искусственного интеллекта, демонстрируя, как различные функции могут использовать текущую информацию, а не полагаться на устаревший снимок, как в других моделях с большим количеством языков (LLM).

Одна из анонсированных выдающихся функций - ”Спрашивать фотографии", которая позволяет пользователям вести непринужденные беседы с Gemini для поиска информации в их галерее. В то время как Google Фото уже давно позволяет пользователям искать в своей библиотеке изображений конкретных людей, объекты или слова, обновление, основанное на искусственном интеллекте, поддерживает открытые запросы на естественном языке.

Например, пользователь Google спросил Gemini, какой у его автомобиля номерной знак. Gemini просмотрела все его фотографии, оценила их и дала правильный ответ.

Еще одно обновление будет знакомо пользователям множества помощников по проведению совещаний с искусственным интеллектом, в том числе встроенных в платформы онлайн-конференций, такие как Zoom. В Google Meet Gemini теперь может анализировать собрания, подводить итоги и генерировать ответы на вопросы в чате. После собрания Gemini предоставляет список действий и назначений задач.

Самая большая новость касалась обновлений под капотом. Сегодня Google объявила о выпуске Gemini 1.5 Pro, которая может похвастаться ошеломляющим контекстным окном в 1 миллион мультимодальных токенов. Эта емкость превышает лимит GPT-4 в 128 000 токенов и уже доступна как разработчикам, так и потребителям в Gemini Advanced - уровне платных услуг искусственного интеллекта технологического гиганта.

Google заявляет, что планирует еще больше расширить возможности обработки токенов в конце этого года, потенциально достигнув 2 миллионов токенов для разработчиков и десятикратного увеличения по сравнению с GPT-4o.

Благодаря значительно увеличенным возможностям Google также продемонстрировал впечатляющие возможности поиска данных Gemini. Это ключевая функция, потому что до сих пор мощные LLM, такие как Claude или GPT-4, демонстрировали снижение производительности — “забывая” ранее рассмотренную информацию - при запросе огромных объемов данных.

Помимо своих топовых моделей, Google запустила Gemini 1.5 Flash, компактный мультимодальный LLM, предназначенный для конкуренции с Claude 3 Haiku и GPT-3.5 в предоставлении быстрых ответов. Однако его пропускная способность в 1 миллион токенов позиционирует его как самую мощную "легкую" модель, доступную на сегодняшний день.

Вероятно, самым интересным анонсом стал Google Project Astra, универсальный агент искусственного интеллекта, который может быть персонализирован и адаптирован к потребностям каждого пользователя. Google указал, что презентация Astra была записана в режиме реального времени, вероятно, в ответ на вчерашнюю демонстрацию OpenAI GPT-4o. Взаимодействие казалось более эффективным и менее неуклюжим, чем GPT-4o, хотя и с более конкретными и менее человекоподобными реакциями.

Хотя голос Gemini в целом также естественный, ему не хватает эмоциональности — или даже “кокетства” - нового голоса ChatGPT от OpenAI. Приоритетом Google, похоже, является функциональность, в отличие от акцента OpenAI на более гуманных взаимодействиях.

Выходя за рамки традиционных языковых моделей, Google представила кроссплатформенных настраиваемых агентов искусственного интеллекта, которые, по его словам, способны рассуждать, планировать и запоминать. Эти способности позволяют Gemini вести себя как группа специализированных ИИ, работающих вместе.

Эти подключения на основе API, которые Google назвал "Драгоценными камнями", похоже, являются ответом на настраиваемые GPT от OpenAI. Gems легко интегрируются с экосистемой Google, предлагая такие функции, как перевод на язык в режиме реального времени, контекстный поиск и персонализированные рекомендации. Пользователи могут формировать Gems, чтобы сосредоточиться на конкретных задачах или тематических областях, или использовать определенный тон.

Google также анонсировала новые генеративные модели искусственного интеллекта для изображений, видео и музыки. Imagen 3, новый генератор изображений Google, обеспечивает очень реалистичные и детализированные изображения, контрастирующие с мультяшным видом OpenAI. Они также утверждают, что она превосходна в генерации текста, функция, которую OpenAI также утверждает, что улучшила.

Они также запустили обновленную версию MusicLM для любителей творческой музыки.