BTC 103985$
ETH 3332.28$
Tether (USDT) 1$
Toncoin (TON) 5.06$
telegram vk
telegram vk Х
Russian English
"

OpenAI и FrontierMath: Большой скандал о прозрачности в ИИ

Дата публикации:20.01.2025, 19:51
87
87
Поделись с друзьями!

Вокруг ключевого инструмента оценки математических способностей языковых моделей – бенчмарка FrontierMath – разразился серьёзный скандал. Выявилось, что компания OpenAI финансировала его разработку и обладала эксклюзивным доступом к данным. Создатель бенчмарка, компания Epoch AI, подтвердила наличие соглашения о неразглашении с OpenAI, которое ограничивало раскрытие информации о партнёрстве вплоть до запуска модели GPT-4 Turbo (o3). При этом специалисты по математике, участвовавшие в создании задач для бенчмарка, не были осведомлены о роли OpenAI в данном проекте.

Epoch AI публично признала недочёты в вопросах обеспечения прозрачности и обязалась в дальнейшем:

  • предоставлять чёткие сведения о финансировании;

  • обеспечивать прозрачность относительно доступа к данным;

  • сделать прозрачность непременным условием таких партнёрских соглашений.

Важность данного инцидента обусловлена несколькими факторами:

  1. Конфликт интересов: OpenAI получила возможность воспользоваться тестовыми данными, которые должны были служить независимым инструментом оценки ИИ-моделей, включая собственные разработки компании.

  2. Эксклюзивность доступа: Другие компании, работающие над ИИ, лишены возможности использовать FrontierMath вследствие договорённостей между Epoch и OpenAI.

  3. Достоверность результатов: Заявления о производительности GPT-4 Turbo (25%) на FrontierMath ставятся под сомнение ввиду доступа OpenAI к тестовым данным.

Существуют предположения о возможных способах использования полученных данных компанией OpenAI:

  • прямое включение тестовых данных в обучающий набор;

  • создание аналогичных тренировочных примеров;

  • использование материалов для совершенствования архитектуры модели.

Отраслевые эксперты подчёркивают необходимость равномерного доступа ко всем подобным бенчмаркам либо полного закрытия доступа для компаний-разработчиков ИИ. Они выражают обеспокоенность тем, что подобные практики могут привести к искажению результатов тестов и недостаточной объективной оценке возможностей моделей.

Этот инцидент актуализирует проблему прозрачности в сфере искусственного интеллекта, особенно при использовании инструментов для оценки и тестирования. Он также указывает на острую необходимость создания независимых бенчмарков, неподвластных влиянию крупных игроков рынка ИИ.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24