Вы здесь

OpenAI столкнулась с замедлением темпов улучшения LLM

Дата публикации:12.11.2024, 05:32

240

Поделись с друзьями!

Хотя количество пользователей ChatGPT и других продуктов ИИ стремительно растет, темпы улучшения базовых компонентов, лежащих в их основе (языковых моделей), похоже, замедляются. В мае Сэм Альтман сообщил сотрудникам, что ожидает значительного улучшения по сравнению с предыдущей моделью. Хотя обучение Orion было завершено только на 20%, она уже показывала результаты на уровне GPT-4.

Однако в итоге улучшение качества оказалось намного меньше, чем скачок между предыдущими моделями GPT-3 и GPT-4. По мнению некоторых сотрудников компании, Orion не всегда превосходит предшественника в определенных задачах: лучше справляется с языковыми задачами, но может уступать в программировании. При этом Orion может оказаться дороже в эксплуатации в дата-центрах.

Основные причины замедления:

1. Нехватка качественных данных для обучения. OpenAI создала специальную команду под руководством Ника Райдера для решения этой проблемы.

2. Orion частично обучалась на данных, сгенерированных другими моделями OpenAI (GPT-4 и моделями рассуждений), но это создает новую проблему: модель может начать повторять особенности старых моделей.

Как OpenAI пытается решить эти проблемы:

- Разрабатывает новые методы улучшения моделей после их начального обучения

- Использует обучение с подкреплением на основе человеческих оценок -

Создала модель рассуждений o1, которая тратит больше времени на "обдумывание" данных перед выдачей ответа

- Развивает возможности написания кода в своих моделях

- Разрабатывает ПО, которое может управлять компьютером для выполнения офисных задач Марк Цукерберг считает, что даже без улучшений технологии остается большой простор для создания продуктов.

Другие, включая исследователя OpenAI Ноама Брауна, предупреждают, что более продвинутые модели могут стать финансово нецелесообразными. Некоторые инвесторы обеспокоены тем, что темпы улучшения языковых моделей начинают выходить на плато. Orion планируется к выпуску в начале следующего года, причем компания может отойти от традиционного названия "GPT", что подчеркивает изменение характера улучшений в языковых моделях.