BTC 83696.1$
ETH 1878.42$
Tether (USDT) 1$
Toncoin (TON) 3.72$
telegram vk
telegram vk Х
Russian English
"

Anthropic обогнала OpenAI и Google DeepMind в создании ИИ для сложных и долгих задач

Дата публикации:26.03.2025, 06:45
254
254
Поделись с друзьями!

В свежем исследовании METR анализируют способности ИИ - моделей временной горизонт задачи — это время, которое требуется человеку для выполнения задачи, и которое ИИ может выполнить с определенной вероятностью успеха.

В центре исследования находится 50%-временной горизонт — длительность задач, где ИИ достигает успеха в 50% случаев. Это своего рода "средняя точка" возможностей моделей, которая позволяет измерять их прогресс.

В исследовании говорится, что Claude 3.7 Sonnet от Anthropic показал наилучшие результаты среди тестируемых моделей - может с 50% вероятностью выполнять задачи, которые занимают у человека ~ 59 минут, что превосходит результаты o1, GPT-4o, Gemini-2.0 и DeepSeek-R1. С 2019 года временной горизонт лучших моделей ИИ удваивается примерно каждые 7 месяцев. Если поднять планку до 80% успеха, временной горизонт сокращается до примерно 15 минут.

Это показывает, что надежность остается слабым местом даже у топовых моделей. Если темпы роста сохранятся, к 2028–2031 годам ИИ сможет брать на себя задачи, эквивалентные месяцу человеческой работы (около 167 часов). Это открывает перспективы для автоматизации сложных проектов.

Что движет прогрессом? - Улучшение логических способностей моделей. - Более умелое использование инструментов. - Повышение надежности и устойчивости к ошибкам. - Рост самосознания моделей (понимания своих пределов). Проблемы и ограничения - ИИ хуже справляется с "грязными" задачами — неструктурированными или с неясной обратной связью. - Модели редко сами ищут дополнительную информацию, что ограничивает их инициативность. - Большой разрыв между 50% и 80% надежностью говорит о том, что стабильность пока далека от идеала.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24