На этой неделе компания Google представила Gemini 2.0 — свою новейшую модель искусственного интеллекта с автономными возможностями и мультимодальными функциями.
Что сразу бросается в глаза в этом выпуске, так это то, что Google считает, что чат-боты с искусственным интеллектом развиваются в сторону ИИ-агентов — персонализированного программного обеспечения, которое использует генеративный ИИ для взаимодействия с пользователями, понимания и выполнения задач в режиме реального времени.
«Благодаря новым достижениям в области мультимодальности, таким как вывод изображений и звука, а также использованию встроенных инструментов, мы сможем создавать новых ИИ-агентов, которые приблизят нас к нашему видению универсального помощника», — сказал генеральный директор Google Сундар Пичаи.
Модель основана на мультимодальных принципах Gemini 1.5 с новыми возможностями создания собственных изображений и преобразования текста в речь, а также улучшенными навыками логического мышления.
По данным Google, версия Flash 2.0 превосходит предыдущую модель 1.5 Pro по ключевым показателям и работает в два раза быстрее.
В настоящее время эта модель доступна пользователям, которые платят за Google Advanced — платную подписку, созданную для конкуренции с Claude и ChatGPT Plus.
Те, кто не боится испачкать руки, могут получить более полное представление о модели, воспользовавшись Google AI Studio.
Оттуда пользователи могут загружать до 1 миллиона токенов контекста — почти в 10 раз больше, чем может ChatGPT, — а также использовать такие функции, как поддержка аудиовизуального ввода, проверка фактов по ссылкам, выполнение кода и настраиваемые параметры, такие как «температура» для случайности ответов и «Top P» для лексических вариаций, что позволяет контролировать креативность или достоверность модели.
Важно учитывать, что этот интерфейс сложнее, чем простой, понятный и удобный пользовательский интерфейс Gemini.
Кроме того, он более мощный, но гораздо медленнее работает. В ходе наших тестов мы попросили его проанализировать документ длиной 74 000 символов, и на получение ответа ушло почти 10 минут.
Однако результат был достаточно точным, без ошибок. Для анализа более длинных документов, содержащих около 200 000 токенов (почти 150 000 слов), потребуется значительно больше времени, но модель способна справиться с этой задачей, если вы достаточно терпеливы.
Google также внедрил функцию «Глубокое исследование», которая теперь доступна в Gemini Advanced, чтобы использовать расширенные возможности модели для анализа и изучения сложных тем, а также для составления отчётов.
Это позволяет пользователям более глубоко изучать различные темы, чем при использовании обычной модели, предназначенной для предоставления более простых ответов. Однако она основана на Gemini 1.5, и нет никаких сроков, когда появится версия, основанная на Gemini 2.0.
Эта новая функция ставит Gemini в один ряд с такими сервисами, как Perplexity Pro Search, Research Assistant от You.com и даже с менее известным BeaGo, которые предлагают аналогичные возможности. Однако сервис Google предлагает кое-что другое. Прежде чем предоставлять информацию, необходимо найти наилучший способ решения задачи.
Он представляет план пользователю, который может редактировать его, добавляя или исключая информацию, добавляя дополнительные материалы для исследования или извлекая фрагменты информации. После настройки методологии пользователь может поручить чат-боту начать исследование. До сих пор ни один сервис на основе ИИ не предлагал исследователям такой уровень контроля и настраиваемости.
В наших тестах простая команда вроде «Изучите влияние ИИ на человеческие отношения» запускала поиск по более чем десятку надёжных научных или официальных сайтов, и модель выдавала документ на 3 страницы, основанный на 8 правильно процитированных источниках. Совсем неплохо.
Проект Astra: Мультимодальный искусственный ИНТЕЛЛЕКТ-ассистент Gemini
Google также поделилась видео, демонстрирующим Project Astra — экспериментального помощника на базе ИИ Gemini 2.0. Astra — это ответ Google на Meta AI: помощник на базе ИИ, который взаимодействует с людьми в режиме реального времени, используя камеру и микрофон смартфона для ввода информации и предоставляя ответы в голосовом режиме.
Google расширил возможности Project Astra, включив в них многоязычные диалоги с улучшенным распознаванием акцентов, интеграцию с Google Поиском, Линзой и Картами, расширенную память, которая сохраняет контекст диалога в течение 10 минут, долговременную память и низкую задержку диалога благодаря новым возможностям потоковой передачи.
Несмотря на сдержанную реакцию в социальных сетях — с момента запуска видео от Google набрало всего 90 тысяч просмотров, — выпуск нового семейства моделей, похоже, набирает популярность среди пользователей, о чём свидетельствует значительный рост числа поисковых запросов, особенно с учётом того, что о нём было объявлено во время масштабного отключения ChatGPT Plus.
Из заявления Google, сделанного на этой неделе, становится ясно, что компания пытается конкурировать с OpenAI за лидерство в сфере генеративного ИИ.
Действительно, это объявление было сделано в разгар кампании OpenAI «12 дней Рождества», в рамках которой компания ежедневно представляет новый продукт.
На данный момент OpenAI представила новую модель рассуждений (o1), инструмент для создания видео (Sora) и ежемесячную подписку «Pro» за 200 долларов.
Google также представил своё новое расширение Chrome на базе искусственного интеллекта Project Mariner, которое использует агентов для навигации по веб-сайтам и выполнения задач. По словам Google, при тестировании в рамках бенчмарка WebVoyager для реальных веб-задач Mariner показал 83,5% успеха при работе в качестве единого агента.
«В течение последнего года мы инвестировали в разработку более интеллектуальных моделей, то есть таких, которые могут лучше понимать окружающий мир, думать на несколько шагов вперёд и действовать от вашего имени под вашим контролем», — написал Пичаи в объявлении.
Компания планирует внедрить интеграцию Gemini 2.0 во всю линейку своих продуктов, начиная с экспериментального доступа к приложению Gemini уже сегодня. Более масштабное внедрение состоится в январе, включая интеграцию с функциями искусственного интеллекта Google Search, которые в настоящее время охватывают более 1 миллиарда пользователей.
Но не забывай о Клоде
Выпуск Gemini 2 состоялся в то время, когда Anthropic незаметно представил своё последнее обновление. Claude 3.5 Haiku — это более быстрая версия семейства моделей ИИ, которая, по заявлению разработчиков, демонстрирует превосходную производительность при выполнении задач по кодированию, набрав 40,6% баллов в тесте SWE-bench Verified.
Компания Anthropic всё ещё обучает свою самую мощную модель Claude 3.5 Opus, которая должна выйти в конце 2025 года после ряда задержек.
Изображение: Антропное
Премиум-сервисы Google и Anthropic стоят 20 долларов в месяц, что соответствует базовому уровню ChatGPT Plus от OpenAI.
Модель Anthropic «Клод 3.5 Хайку» оказалась намного быстрее, дешевле и эффективнее, чем «Клод 3 Сонет» (модель Anthropic среднего размера предыдущего поколения), набрав 88,1% баллов в задачах по кодированию HumanEval и 85,6% баллов в многоязычных математических задачах.
Модель демонстрирует особую эффективность при обработке данных. Такие компании, как Replit и Apollo, сообщают о значительных улучшениях в оптимизации кода и создании контента.
Claude 3.5 Haiku стоит дёшево — 0,80 доллара за миллион вводимых символов.
Компания утверждает, что пользователи могут сэкономить до 90% средств за счёт кэширования подсказок и ещё 50% за счёт использования API пакетов сообщений. Это делает модель экономически выгодным вариантом для предприятий, стремящихся масштабировать свои операции с использованием ИИ, и очень интересным вариантом по сравнению с OpenAI o1-mini, который стоит 3 доллара за миллион входных токенов.