Вокруг ключевого инструмента оценки математических способностей языковых моделей – бенчмарка FrontierMath – разразился серьёзный скандал. Выявилось, что компания OpenAI финансировала его разработку и обладала эксклюзивным доступом к данным. Создатель бенчмарка, компания Epoch AI, подтвердила наличие соглашения о неразглашении с OpenAI, которое ограничивало раскрытие информации о партнёрстве вплоть до запуска модели GPT-4 Turbo (o3). При этом специалисты по математике, участвовавшие в создании задач для бенчмарка, не были осведомлены о роли OpenAI в данном проекте.
Epoch AI публично признала недочёты в вопросах обеспечения прозрачности и обязалась в дальнейшем:
-
предоставлять чёткие сведения о финансировании;
-
обеспечивать прозрачность относительно доступа к данным;
-
сделать прозрачность непременным условием таких партнёрских соглашений.
Важность данного инцидента обусловлена несколькими факторами:
-
Конфликт интересов: OpenAI получила возможность воспользоваться тестовыми данными, которые должны были служить независимым инструментом оценки ИИ-моделей, включая собственные разработки компании.
-
Эксклюзивность доступа: Другие компании, работающие над ИИ, лишены возможности использовать FrontierMath вследствие договорённостей между Epoch и OpenAI.
-
Достоверность результатов: Заявления о производительности GPT-4 Turbo (25%) на FrontierMath ставятся под сомнение ввиду доступа OpenAI к тестовым данным.
Существуют предположения о возможных способах использования полученных данных компанией OpenAI:
-
прямое включение тестовых данных в обучающий набор;
-
создание аналогичных тренировочных примеров;
-
использование материалов для совершенствования архитектуры модели.
Отраслевые эксперты подчёркивают необходимость равномерного доступа ко всем подобным бенчмаркам либо полного закрытия доступа для компаний-разработчиков ИИ. Они выражают обеспокоенность тем, что подобные практики могут привести к искажению результатов тестов и недостаточной объективной оценке возможностей моделей.
Этот инцидент актуализирует проблему прозрачности в сфере искусственного интеллекта, особенно при использовании инструментов для оценки и тестирования. Он также указывает на острую необходимость создания независимых бенчмарков, неподвластных влиянию крупных игроков рынка ИИ.