Инновации DeepSeek в сфере искусственного интеллекта
DeepSeek произвели революцию в области искусственного интеллекта, предложив решения, способные изменить рыночное положение компаний, таких как NVIDIA, чья рыночная капитализация составляет около 2 трлн долларов.
Контекст
На сегодняшний день создание и обучение передовых моделей ИИ требует значительных финансовых вложений. Компании, такие как OpenAI и Anthropic, тратят свыше 100 миллионов долларов исключительно на вычислительные мощности. Для этого им необходимы масштабные дата-центры, оснащенные тысячами графических процессоров (GPU), стоимость каждого из которых достигает 40 тыс. долларов. Этот подход можно сравнить с необходимостью строительства отдельной электростанции для функционирования небольшого завода.
Подход DeepSeek
Компания DeepSeek предложила кардинально иной подход, заявив, что сможет достичь аналогичных результатов при бюджете всего в 5 миллионов долларов. И они успешно реализовали свою идею. Разработанные ими модели демонстрируют результаты, сопоставимые или даже превосходящие показатели GPT-4 и Claude по ряду задач.
Ключевые инновации
-
Оптимизация использования ресурсов: Традиционно для обработки данных используются числа с высокой степенью точности, что требует значительного объема памяти. DeepSeek предложили сократить количество знаков до восьми, что позволило снизить потребление памяти на 75%.
-
Мультитоковая обработка текста: Обычные системы ИИ анализируют тексты построчно, слово за словом. DeepSeek разработали методику, позволяющую обрабатывать целые фразы одновременно, что увеличило скорость обработки информации вдвое при сохранении уровня точности на уровне 90%. Это особенно актуально при работе с большими объемами данных.
-
Экспертные системы: Вместо создания одной универсальной модели, которая должна обладать знаниями в различных областях, DeepSeek внедрили специализированную экспертную систему. Она включает множество узкоспециализированных модулей, активируемых только тогда, когда это необходимо. Таким образом, в отличие от традиционных систем, где все параметры постоянно находятся в активном состоянии, DeepSeek используют лишь те модули, которые требуются для выполнения конкретной задачи.
Результаты
Благодаря таким нововведениям, компания достигла следующих показателей:
-
Снижение стоимости обучения моделей с 100 млн долларов до 5 млн долларов;
-
Сокращение необходимого количества GPU с 100 тыс. до 2 тыс.;
-
Уменьшение затрат на использование API на 95%;
-
Возможность работы на стандартных игровых GPU без необходимости использования дорогостоящего серверного оборудования.
Открытый исходный код
Важно отметить, что вся работа компании DeepSeek доступна в открытом доступе. Любое заинтересованное лицо может ознакомиться с их кодом и техническими документами, убедиться в отсутствии «волшебства» и оценить качество инженерных решений.
Значение этих изменений
Эти достижения имеют далеко идущие последствия:
-
Доступность разработки ИИ значительно увеличивается;
-
Усиливается конкуренция среди разработчиков;
-
Снижается потребность в использовании дорогостоящего оборудования;
-
Резко сокращаются требования к аппаратным ресурсам и сопутствующие расходы.
Возможные последствия для отрасли
Крупные игроки, такие как OpenAI и Anthropic, скорее всего, уже начали адаптировать свои подходы, учитывая новые технологии. Однако возврат к стратегии увеличения мощностей путем наращивания количества GPU теперь невозможен. Эти изменения сравнимы с теми, которые произошли с появлением персональных компьютеров, заменивших мейнфреймы, или с развитием облачных технологий.
Таким образом, искусственный интеллект вскоре станет гораздо более доступным и дешевым. Вопрос заключается не в том, произойдут ли эти изменения, а в том, насколько быстро они повлияют на рынок и текущую расстановку сил.