Что за зверь DeepSeek и почему Nvidia больно

Инновации DeepSeek в сфере искусственного интеллекта

DeepSeek произвели революцию в области искусственного интеллекта, предложив решения, способные изменить рыночное положение компаний, таких как NVIDIA, чья рыночная капитализация составляет около 2 трлн долларов.

Контекст

На сегодняшний день создание и обучение передовых моделей ИИ требует значительных финансовых вложений. Компании, такие как OpenAI и Anthropic, тратят свыше 100 миллионов долларов исключительно на вычислительные мощности. Для этого им необходимы масштабные дата-центры, оснащенные тысячами графических процессоров (GPU), стоимость каждого из которых достигает 40 тыс. долларов. Этот подход можно сравнить с необходимостью строительства отдельной электростанции для функционирования небольшого завода.

Подход DeepSeek

Компания DeepSeek предложила кардинально иной подход, заявив, что сможет достичь аналогичных результатов при бюджете всего в 5 миллионов долларов. И они успешно реализовали свою идею. Разработанные ими модели демонстрируют результаты, сопоставимые или даже превосходящие показатели GPT-4 и Claude по ряду задач.

Ключевые инновации

Оптимизация использования ресурсов: Традиционно для обработки данных используются числа с высокой степенью точности, что требует значительного объема памяти. DeepSeek предложили сократить количество знаков до восьми, что позволило снизить потребление памяти на 75%.
Мультитоковая обработка текста: Обычные системы ИИ анализируют тексты построчно, слово за словом. DeepSeek разработали методику, позволяющую обрабатывать целые фразы одновременно, что увеличило скорость обработки информации вдвое при сохранении уровня точности на уровне 90%. Это особенно актуально при работе с большими объемами данных.
Экспертные системы: Вместо создания одной универсальной модели, которая должна обладать знаниями в различных областях, DeepSeek внедрили специализированную экспертную систему. Она включает множество узкоспециализированных модулей, активируемых только тогда, когда это необходимо. Таким образом, в отличие от традиционных систем, где все параметры постоянно находятся в активном состоянии, DeepSeek используют лишь те модули, которые требуются для выполнения конкретной задачи.

Результаты

Благодаря таким нововведениям, компания достигла следующих показателей:

Снижение стоимости обучения моделей с 100 млн долларов до 5 млн долларов;
Сокращение необходимого количества GPU с 100 тыс. до 2 тыс.;
Уменьшение затрат на использование API на 95%;
Возможность работы на стандартных игровых GPU без необходимости использования дорогостоящего серверного оборудования.

Открытый исходный код

Важно отметить, что вся работа компании DeepSeek доступна в открытом доступе. Любое заинтересованное лицо может ознакомиться с их кодом и техническими документами, убедиться в отсутствии «волшебства» и оценить качество инженерных решений.

Значение этих изменений

Эти достижения имеют далеко идущие последствия:

Доступность разработки ИИ значительно увеличивается;
Усиливается конкуренция среди разработчиков;
Снижается потребность в использовании дорогостоящего оборудования;
Резко сокращаются требования к аппаратным ресурсам и сопутствующие расходы.

Возможные последствия для отрасли

Крупные игроки, такие как OpenAI и Anthropic, скорее всего, уже начали адаптировать свои подходы, учитывая новые технологии. Однако возврат к стратегии увеличения мощностей путем наращивания количества GPU теперь невозможен. Эти изменения сравнимы с теми, которые произошли с появлением персональных компьютеров, заменивших мейнфреймы, или с развитием облачных технологий.

Таким образом, искусственный интеллект вскоре станет гораздо более доступным и дешевым. Вопрос заключается не в том, произойдут ли эти изменения, а в том, насколько быстро они повлияют на рынок и текущую расстановку сил.