Вы здесь

OpenAI и FrontierMath: Большой скандал о прозрачности в ИИ

Дата публикации:20.01.2025, 19:51

Поделись с друзьями!

Вокруг ключевого инструмента оценки математических способностей языковых моделей – бенчмарка FrontierMath – разразился серьёзный скандал. Выявилось, что компания OpenAI финансировала его разработку и обладала эксклюзивным доступом к данным. Создатель бенчмарка, компания Epoch AI, подтвердила наличие соглашения о неразглашении с OpenAI, которое ограничивало раскрытие информации о партнёрстве вплоть до запуска модели GPT-4 Turbo (o3). При этом специалисты по математике, участвовавшие в создании задач для бенчмарка, не были осведомлены о роли OpenAI в данном проекте.

Epoch AI публично признала недочёты в вопросах обеспечения прозрачности и обязалась в дальнейшем:

предоставлять чёткие сведения о финансировании;
обеспечивать прозрачность относительно доступа к данным;
сделать прозрачность непременным условием таких партнёрских соглашений.

Важность данного инцидента обусловлена несколькими факторами:

Конфликт интересов: OpenAI получила возможность воспользоваться тестовыми данными, которые должны были служить независимым инструментом оценки ИИ-моделей, включая собственные разработки компании.
Эксклюзивность доступа: Другие компании, работающие над ИИ, лишены возможности использовать FrontierMath вследствие договорённостей между Epoch и OpenAI.
Достоверность результатов: Заявления о производительности GPT-4 Turbo (25%) на FrontierMath ставятся под сомнение ввиду доступа OpenAI к тестовым данным.

Существуют предположения о возможных способах использования полученных данных компанией OpenAI:

прямое включение тестовых данных в обучающий набор;
создание аналогичных тренировочных примеров;
использование материалов для совершенствования архитектуры модели.

Отраслевые эксперты подчёркивают необходимость равномерного доступа ко всем подобным бенчмаркам либо полного закрытия доступа для компаний-разработчиков ИИ. Они выражают обеспокоенность тем, что подобные практики могут привести к искажению результатов тестов и недостаточной объективной оценке возможностей моделей.

Этот инцидент актуализирует проблему прозрачности в сфере искусственного интеллекта, особенно при использовании инструментов для оценки и тестирования. Он также указывает на острую необходимость создания независимых бенчмарков, неподвластных влиянию крупных игроков рынка ИИ.