Вы можете опробовать Grok как в приложении X (бывший Твиттер), в том числе в России через VPN, так и на сайте или в мобильном приложении.
Между тем Борис Пауэр из OpenAI обвинил команду xAI в мошенничестве и манипуляциях с данными тестирования. Он отметил, что модель OpenAI o3-mini демонстрирует более высокие результаты в стандартных условиях.
На это сооснователь xAI Юхуай Ву ответил, что существующие бенчмарки не отражают реальный потенциал моделей. По его словам, полная версия Grok 3 субъективно «умнее» мини-версии, а различные режимы тестирования (включая cons@64) являются легитимным подходом.
Так что же получается? Представляет ли Grok 3 серьезный технологический прогресс?
Возможно. Однако методология сравнения с конкурентами могла бы быть более прозрачной. Интересно, что мини-версия часто показывает лучшие результаты, чем полная — это необычно и требует дополнительного изучения.
Тем не менее, похоже, что Grok 3 действительно впечатляет, раз OpenAI уже начали публично критиковать конкурентов.