Андрей Карпаты, покинувший OpenAI в прошлом году, указывает, что в настоящее время трудно оценить эффективность новых моделей ИИ (таких как GPT-4.5). Он выражает недовольство отсутствием адекватных методов тестирования.
Традиционные тесты (например, MMLU) уже утратили свою актуальность и больше не отражают реальной картины. Новые тесты (например, SWE-Bench) являются слишком специализированными и также не предоставляют полного представления. Существует еще платформа Chatbot Arena, предназначенная для сравнения моделей, однако она стала менее эффективной, поскольку разработчики целенаправленно адаптируют свои ИИ под нее, что приводит к необъективным результатам.
Карпаты пытался самостоятельно оценивать модели интуитивно, основываясь на собственных впечатлениях, но признает, что такой подход ненадежен, так как можно быть введенным в заблуждение собственными ожиданиями или недостаточным количеством примеров.
Таким образом, он заключает: "Я не уверен, каким образом точно определить реальные возможности этих ИИ". Эта проблема касается не только его лично, но и всей индустрии ИИ в целом (по состоянию на март 2025 года).