ChatGPT, Gemini или Grok-3: у какого ИИ лучший исследовательский агент?

Если прошлый год ознаменовался появлением революционных моделей ИИ с впечатляющими разговорными способностями, то многие считают, что 2025 год может стать годом ИИ-агентов— автономных систем, предназначенных для выполнения конкретных задач с минимальным участием человека.

Эти специализированные инструменты выходят за рамки простых чатов и автономно выполняют различные задачи, выходящие за рамки простого создания контента.

Шумиха вокруг исследовательских агентов набрала обороты, когда в конце 2024 года You.com представил свой новаторский инструмент для исследований.

Google быстро отреагировал, выпустив исследовательский агент Gemini, способный генерировать подробные анализы с большим количеством цитирований, охватывающие десятки страниц. Он доступен для пользователей Gemini Advanced за 20 долларов в месяц.

В феврале компания OpenAI вступила в соревнование со своим исследовательским помощником на базе GPT-4.5, а несколько дней спустя компания Илона Маска xAI представила возможности глубокого исследования в Grok-3.

Сейчас Grok и Gemini предлагают своих исследовательских агентов бесплатно, в то время как OpenAI взимает 20 долларов за 10 пользователей в месяц на уровне Plus и 200 долларов за 120 пользователей в месяц на уровне Pro.

Но какой из них на самом деле даёт наиболее полезные результаты? Мы протестировали всех агентов, чтобы оценить, как эти цифровые помощники в исследованиях справляются с одинаковыми задачами.

(Примечание: Все результаты находятся в нашем репозитории на GitHub.)

Подготовка Перед исследованием

Как только вы поручаете этим системам ИИ проведение исследований, становится очевидной их уникальная индивидуальность.

ChatGPT использует осторожный, методичный подход, задавая уточняющие вопросы, прежде чем продолжить. Такой осторожный подход позволяет свести к минимуму вероятность ошибок и повысить релевантность, сначала установив точные параметры намерений пользователя.

Это также помогает модели не заходить в тупик и не делать ошибочных выводов.

Близнецы менее очевидны и вместо этого действуют скорее как партнеры по совместному исследованию.

Прежде чем приступить к работе, он разработает структурированный план исследования, который вы сможете просмотреть и изменить перед выполнением. Такой прозрачный подход позволяет пользователям с самого начала лучше контролировать направление исследования.

Кроме того, он гораздо более детализирован и предоставляет пользователям более высокий уровень контроля над исследовательским агентом, поскольку они могут контролировать каждый этап исследования, добавляя, удаляя и изменяя этапы до тех пор, пока не будет создан идеальный план.

Grok-3, верный своему происхождению под влиянием Маска, пропускает приветствия и сразу переходит к делу.

Никаких вопросов, никаких планов — только немедленное проведение исследования с упором на максимально быструю выдачу результатов.

Если вы хотите добиться хороших результатов с помощью Grok, вам нужно быть невероятно внимательным при составлении запроса.

Эти первоначальные взаимодействия — это не просто различия в интерфейсах, они раскрывают фундаментальные принципы, лежащие в основе подхода каждой системы к сбору информации.

Скорость

В наших временных испытаниях разница в производительности была поразительной:

Запуск всех трех систем ровно в 16:27:

«Грок-3» первым пересек финишную черту в 16:30 (всего через 3 минуты)
Близнецы завершили исследование в 16:38 (11 минут)
ChatGPT наконец выдал результаты в 16:43 (через 16 минут)

Это означает, что разница во времени между самым быстрым и самым медленным вариантами составляет 433%.

Для сравнения: за то время, которое ChatGPT тратит на выполнение одной исследовательской задачи, Grok-3 потенциально может завершить пять отдельных исследований или выполнить пять различных итераций одного исследования, повысив его качество.

Этот разрыв в скорости может по-разному влиять на ситуацию в зависимости от сценария. Конечно, пользователи жертвуют качеством ради скорости, но, по-видимому, это ключевой фактор, который выделяет Grok среди других исследователей ИИ.

Хотя, честно говоря, насколько важна разница в считанные минуты в исследовании?

Для большинства людей это вообще не будет иметь значения. Идите выпейте чашечку кофе, пока ИИ выполняет вашу работу. Если вы журналист, у которого дедлайн, студент, который в последнюю минуту дописывает работу, или профессионал, которому нужна быстрая информация для совещания, преимущество Grok-3 в скорости может стать решающим фактором между тем, чтобы успеть в срок или не успеть.

Но если вам, как и большинству из нас, нужны подробности и углублённая информация по теме, вам лучше воспользоваться ChatGPT или Gemini.

Gemini даже отправит вам уведомление на смартфон о том, что исследование завершено.

Наблюдая за Работой Моделей

Небольшое различие между этими системами заключается в том, насколько они прозрачны в процессе исследования— этот фактор напрямую влияет на то, насколько вы можете доверять их выводам.

Gemini — безусловно, лучший в этой категории, предлагающий исключительную прозрачность процесса сбора информации. Вы можете следить за тем, как он ищет информацию, оценивает источники и формирует своё представление.

Такая прозрачность создаёт своего рода цифровой след, который помогает повысить доверие к результатам.

ChatGPT, напротив, работает скорее как «чёрный ящик», будучи гораздо более ограниченным в своей цепочке рассуждений и в целом в процессе исследования.

Пользователи почти не видят, что происходит за кулисами, и часто смотрят на пустой экран, гадая, происходит ли что-нибудь вообще.

В ходе нескольких тестов система полностью зависала, и мы узнали об этом только потому, что открыли новую вкладку и увидели, что исследование завершилось 10 минут назад.

Grok-3 занимает промежуточную позицию в вопросе прозрачности, демонстрируя меньше своей работы, чем Gemini, но компенсируя это практическими структурными инновациями. Его отличительной особенностью является представление ключевых выводов в начале, прежде чем углубляться в детали, — примерно так же, как в хорошем кратком изложении.

Глубина исследования: Измерение качества

При сравнении инструментов для исследования ИИ глубина исследования, вероятно, является показателем, который отличает сложные системы от прославленных поисковых систем. Наше тестирование выявило некоторые существенные различия в том, как эти платформы подходят к всестороннему синтезу знаний.

ChatGPT предоставляет исчерпывающий анализ, который можно было бы использовать в исследованиях на уровне магистратуры — с точки зрения информации, а не методологии. При изучении философских вопросов о существовании Бога он создал обширный анализ из 17 000 слов, охватывающий различные философские позиции с историческим контекстом и подробными контраргументами.

За такую полноту приходится платить: из-за информационной перегрузки ключевые идеи часто теряются в море контекста, создавая своего рода лабиринт, в котором пользователям приходится блуждать, чтобы извлечь полезные выводы.

Gemini придерживается более сбалансированного подхода, будучи более структурированным, но при этом достаточно всеобъемлющим — отчёт состоял из более чем 6500 слов.

Как правило, он охватывает большую часть материалов ChatGPT, но систематизирует информацию с превосходной архитектурной точностью, включая официальные системы цитирования с пронумерованными ссылками.

Такая упорядоченная иерархия знаний, в которой основные понятия чётко отделены от подтверждающих их фактов, делает сложную информацию значительно более понятной без ущерба для глубины понимания.

В Grok-3 скорость важнее глубины, и используется подход, напоминающий краткое изложение. В отчёте было чуть больше 1500 слов.

Он надёжно охватывает основные аспекты сложных тем, но не углубляется в тонкости. Эта ориентированная на эффективность методология создаёт непосредственную пользу за счёт всестороннего понимания — идеально подходит для быстрой ориентации, но может быть недостаточна для академических целей.

Интересно, что исследование, на которое у этих моделей ушло больше всего времени, было простым: «Сколько существует полов?»

ChatGPT потребовалось около 20 минут, Gemini — почти полчаса, а Grok — почти восемь минут, чтобы написать простой ответ. Учитывая, кто владелец xAI, такая вдумчивость выглядит иронично.

Кстати, ни один из них не назвал нам реального номера телефона.

Для пользователей оптимальный выбор полностью зависит от конкретных потребностей в знаниях: академические исследователи могут предпочесть глубину ChatGPT, несмотря на его многословность, а профессионалы, которым важно соблюдать баланс между тщательностью и нехваткой времени, могут счесть подход Gemini идеальным.

Напротив, те, кому нужна быстрая аналитика без подробного контекста, могут предпочесть модель Grok-3, ориентированную на эффективность.

Проверка цитирования на реальность

Все три системы наглядно показывают, с каким количеством источников они ознакомились, но наше исследование выявило странное поведение, которое противоречит этим показателям.

Изучая практику цитирования, мы обнаружили, что все три системы часто считают разные фрагменты информации из одного источника отдельными цитатами.

Это создает обманчивое впечатление о широте проводимых исследований.

На практике это означает, что когда ИИ утверждает, что ознакомился с «20 источниками», на самом деле он мог получить информацию всего из 5 отдельных документов, используя 4 абзаца из каждого в качестве единого источника.

Из-за такого увеличения количества цитирований становится сложно точно оценить, насколько всеобъемлющим на самом деле является исследование. Это серьёзная проблема для академических или профессиональных сфер, где важно разнообразие источников.

У Grok тоже есть способ мошенничества. Он предоставляет хорошую и точную информацию, но большая часть ссылок на источники часто приводит нас к неработающим ссылкам и несуществующим страницам.

Вердикт: разные инструменты для разных работ

Эти помощники в исследованиях на основе ИИ, по-видимому, оптимизированы для совершенно разных сценариев использования. Так что, как бы банально это ни звучало, каждый из них лучше подходит для определённого типа пользователей:

Gemini (8,5/10) предлагает наиболее сбалансированный опыт проведения исследований с исключительной прозрачностью. Это лучший выбор для серьёзных исследований, где понимание источника и методологии так же важно, как и сами выводы. Подумайте о профессиональных отчётах, бизнес-стратегиях, исторических исследованиях или любых сценариях, в которых вам нужно проверять и потенциально защищать свои источники.
ChatGPT (8/10) обеспечивает максимальную глубину исследования, но за счёт снижения скорости, прозрачности и надёжности. Он лучше всего подходит для несрочных исследовательских работ, где тщательность важнее эффективности и где периодические сбои системы не повлияют на критически важные рабочие процессы. Он идеально подходит для академических кругов, исследователей, философов и учёных.
Грок-3 (7/10) Этот агент — чемпион по скорости с отличной подачей информации. Он идеально подходит для срочных задач, когда вам нужна быстрая и ясная информация без необходимости отслеживать каждый этап исследования. Журналисты, работающие в сжатые сроки, профессионалы, готовящиеся к предстоящим встречам, те, кто быстро планирует поездки, проверяет факты по сложным темам, или все, кто ценит своё время, оценят эффективность Грока-3 — при условии, что они знают, что не стоит полагаться на этого агента при глубоком изучении исследуемых тем.

На данный момент Gemini предлагает наиболее полный пакет услуг для общих исследовательских нужд, но «правильный» выбор в конечном счёте зависит от того, что для вас важнее: скорость, прозрачность или тщательность, — и в настоящее время ни одна платформа не обеспечивает идеального сочетания всех трёх достоинств.