BTC 83629.5$
ETH 2075.79$
Tether (USDT) 1$
Toncoin (TON) 3.02$
telegram vk
telegram vk Х
Russian English
"

Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Дата публикации:04.03.2025, 06:52
92
92
Поделись с друзьями!

Андрей Карпаты, покинувший OpenAI в прошлом году, указывает, что в настоящее время трудно оценить эффективность новых моделей ИИ (таких как GPT-4.5). Он выражает недовольство отсутствием адекватных методов тестирования.

Традиционные тесты (например, MMLU) уже утратили свою актуальность и больше не отражают реальной картины. Новые тесты (например, SWE-Bench) являются слишком специализированными и также не предоставляют полного представления. Существует еще платформа Chatbot Arena, предназначенная для сравнения моделей, однако она стала менее эффективной, поскольку разработчики целенаправленно адаптируют свои ИИ под нее, что приводит к необъективным результатам.

Карпаты пытался самостоятельно оценивать модели интуитивно, основываясь на собственных впечатлениях, но признает, что такой подход ненадежен, так как можно быть введенным в заблуждение собственными ожиданиями или недостаточным количеством примеров.

Таким образом, он заключает: "Я не уверен, каким образом точно определить реальные возможности этих ИИ". Эта проблема касается не только его лично, но и всей индустрии ИИ в целом (по состоянию на март 2025 года).

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24