BTC 0$
ETH 0$
Tether (USDT) 0$
Toncoin (TON) 0$
telegram vk
telegram vk Х
Russian English

Что такое DeepSeek и как он работает?

Дата публикации: 31.01.2025
120
Поделись с друзьями!
1

Что такое DeepSeek?

DeepSeek — это модель ИИ (чат-бот), которая функционирует аналогично ChatGPT, позволяя пользователям выполнять такие задачи, как кодирование, рассуждение и решение математических задач. Она работает на основе модели R1, которая может похвастаться 670 миллиардами параметров, что делает ее крупнейшей большой языковой моделью с открытым исходным кодом по состоянию на 28 января 2025 года.

DeepSeek разработала две модели: v3 и R1. Модель R1 DeepSeek превосходит в рассуждениях, производя ответы пошагово, имитируя мыслительные процессы человека. Такой подход снижает использование памяти, делая ее более рентабельной, чем у многих конкурентов. DeepSeek выделяется среди чат-ботов на базе ИИ своей экономичностью. Говорят, что его разработка обошлась всего в 6 миллионов долларов, что составляет часть от цены более 100 миллионов долларов для GPT-4 OpenAI.

Методы, используемые DeepSeek для создания этой модели, остаются неопределенными. Сообщается, что основатель DeepSeek запасся чипами Nvidia A100, которые были санкционированы для экспорта в Китай с сентября 2022 года, для высокопроизводительного использования в его системе ИИ. Этот кэш, потенциально превышающий 50 000 единиц, в сочетании с менее продвинутыми, но более доступными чипами H800 в нижнем диапазоне, как сообщается, привел к разработке мощной, но более дешевой модели ИИ.

Благодаря возможности работать одновременно с подмножеством параметров модели и стоимости обучения, которая составляет лишь часть инвестиций, сделанных гигантами отрасли, DeepSeek выделяется среди конкурентов, таких как ChatGPT, Google Gemini, Grok AI и Claude AI.

DeepSeek R1 сделал свой код открытым, хотя он по-прежнему сохраняет данные обучения запатентованными. Эта прозрачность позволяет проверять заявления компании. Более того, вычислительная эффективность модели обещает более быстрые и доступные исследования с использованием ИИ, открывая двери для более широкого изучения. Эта доступность может также способствовать более глубокому исследованию механики больших языковых моделей (LLM).

2

Ключевые архитектурные инновации модели DeepSeek-V2

DeepSeek-V2 представляет несколько ключевых архитектурных усовершенствований. Он использует новую архитектуру MoE и механизм внимания MLA.

Давайте узнаем больше об этих важнейших компонентах модели DeepSeek-V2:

  • Архитектура смешанных экспертов (MoE): используемая в DeepSeek, архитектура MoE активирует только подмножество параметров модели и одновременно минимизирует вычислительные ресурсы, необходимые для обработки запроса. Проще говоря, это означает, что вместо одной массивной нейронной сети модель состоит из нескольких более мелких «экспертных» сетей, каждая из которых специализируется на различных аспектах со своими наборами вводных данных. Во время обработки для каждого ввода активируется только подмножество этих экспертов, что делает вычисления более эффективными.
  • Многоголовое скрытое внимание (MLA): MLA — это новый механизм внимания, который значительно сокращает объем памяти, занимаемый моделью. Традиционные механизмы внимания требуют хранения больших объемов информации, что может быть затратным с точки зрения вычислений. MLA сжимает эту информацию в меньшее «скрытое» представление, позволяя модели обрабатывать информацию более эффективно.

Более того, модели ИИ от DeepSeek повышают свою производительность с помощью парадигмы обучения методом проб и ошибок, которая довольно близка к собственному способу обучения людей.

Способность DeepSeek сбалансировать сложные возможности ИИ с экономически эффективной разработкой отражает стратегический подход, который может повлиять на будущее больших языковых моделей. Кроме того, выпуск DeepSeek R1 был описан Марком Андрессеном как «момент спутника» для американского ИИ, что означает серьезный вызов американскому доминированию в области ИИ.


Рисунок 1. Исторический твит Марка Андрессена о DeepSeek.

С точки зрения истории «момент спутника» отсылает к ключевому событию в освоении космоса, когда СССР первым вывел на орбиту искусственный спутник земли, который подстегнул дальнейшую «космическую гонку». Поэтому «момент спутника» относится к событию, которое вызывает внезапное осознание технологического или научного разрыва между одной страной или субъектом и другой, что приводит к возобновлению внимания к исследованиям, разработкам и инновациям.

Знаете ли вы? Эксперт по ИИ Том Голдштейн, профессор Мэрилендского университета, подсчитал, что ChatGPT обходится примерно в 100 000 долларов в день и ошеломляющие 3 миллиона долларов в месяц на поддержание работы. Его расчеты основывались на расходах, связанных с Azure Cloud, платформой, которая обеспечивает необходимую серверную инфраструктуру.

3

Кто разработал DeepSeek?

DeepSeek был основан в декабре 2023 года Лян Вэньфэном, который запустил первую большую языковую модель в следующем году. Лян, выпускник Чжэцзянского университета со степенями в области электронной информационной инженерии и компьютерных наук, стал ключевой фигурой в мировой индустрии ИИ.

В отличие от многих предпринимателей в сфере ИИ из Кремниевой долины, Лян имеет заметный опыт в сфере финансов. Он является генеральным директором High-Flyer, хедж-фонда, специализирующегося на количественной торговле, который использует ИИ для анализа финансовых данных и принятия инвестиционных решений. В 2019 году High-Flyer стал первым в Китае количественным хедж-фондом, который привлек более 100 миллиардов юаней (13 миллионов долларов).

Лян создал DeepSeek как отдельную от High-Flyer организацию, но хедж-фонд остается значимым инвестором. DeepSeek в первую очередь фокусируется на разработке и внедрении передовых моделей искусственного интеллекта, в частности LLM.

Теперь Лян Вэньфэня называют не иначе как «Сэм Альтман из Китая», Лян открыто говорит о необходимости Китая внедрять инновации, а не имитировать ИИ. В 2019 году он подчеркнул необходимость для Китая развивать свой сектор количественной торговли, чтобы конкурировать с США. Он считает, что настоящей проблемой для китайского ИИ является переход от имитации к инновациям, сдвиг, требующий нестандартного мышления.

4

Почему все говорят о DeepSeek?

Значимость DeepSeek заключается в его потенциале кардинально преобразовать технологический и финансовый ландшафт ИИ. Когда лидеры технологий в США были заняты инвестициями в ядерную энергетику, чтобы поддерживать работу своих энергоемких центров обработки данных, DeepSeek достигла тех же целей без суеты и гигантских капитальных вложений.

Разработка ИИ требует огромных ресурсов, примером чего служат инвестиции Meta* в размере 65 миллиардов долларов в разработку технологий. Генеральный директор OpenAI Сэм Альтман заявил, что индустрии ИИ требуются триллионы долларов на разработку передовых чипов для энергоемких центров обработки данных, что является важнейшим компонентом таких моделей.

DeepSeek демонстрирует, как можно достичь сопоставимых возможностей ИИ при значительно меньших затратах и ​​менее сложном оборудовании. Этот прорыв бросил вызов распространенному представлению о том, что разработка моделей ИИ требует непомерных инвестиций.

Доступность моделей ИИ по низкой цене и с менее сложными чипами может многократно увеличить их использование в отраслях, повысить производительность и способствовать беспрецедентным инновациям.

Для сравнения, Microsoft вложила значительные средства в OpenAI, первоначально вложив 1 миллиард долларов, а затем добавив еще 10 миллиардов долларов. Этот стратегический шаг, похоже, окупается, поскольку Bing увидел 15%-ный рост ежедневного трафика с момента интеграции ChatGPT.

5

DeepSeek против ChatGPT: как они сравниваются?

ChatGPT и DeepSeek — это передовые инструменты ИИ, но они служат разным целям. DeepSeek разработан для решения проблем в технической области, что делает его идеальным для пользователей, которым нужен эффективный инструмент для узкоспециализированных задач. ChatGPT, с другой стороны, является универсальным ИИ, известным своей простотой использования и креативностью, что делает его подходящим для всего, от повседневных разговоров до создания контента.

Что касается архитектуры, DeepSeek R1 использует ресурсоэффективную структуру MoE, в то время как ChatGPT использует универсальный подход на основе трансформеров. Трансформеры — это тип модели глубокого обучения, которая произвела революцию в обработке естественного языка, используя механизмы внимания для оценки важности различных частей входной последовательности при обработке информации.

MoE использует 671 миллиард параметров, но активирует только 37 миллиардов на запрос, что повышает вычислительную эффективность. ChatGPT имеет монолитную конструкцию с 1,8 триллиона параметров, подходящую для универсальной генерации языка и творческих задач.

Последующее обучение с подкреплением (RL) в DeepSeek делает возможным решение проблем на основе «цепочки мыслей», подобной человеческому мышлению, без сильной зависимости от контролируемых наборов данных. ChatGPT (модель o1) оптимизирован для многошагового рассуждения, особенно в областях STEM, таких как математика и кодирование.

DeepSeek создан для эффективной обработки сложных запросов, предлагая точные решения быстро и экономически эффективно. Хотя ChatGPT мощный, его основная сила заключается в общей генерации контента, а не в решении технических проблем. ChatGPT выделяется, когда дело касается творческих задач. Он может помочь пользователям генерировать идеи, писать истории, сочинять стихи и создавать маркетинговый контент.

Стоимость — еще одно ключевое отличие. DeepSeek предлагает более доступную модель ценообразования, особенно для пользователей, которым требуется помощь ИИ для технических задач. ChatGPT с его более широким спектром приложений обходится дороже для тех, кто ищет премиум-функции или корпоративные решения. Хотя ChatGPT предлагает бесплатные пробные версии, DeepSeek можно использовать совершенно бесплатно, за исключением доступа к API, который более доступен, чем ChatGPT.

DeepSeek R1 был обучен за 55 дней на 2048 графических процессорах Nvidia H800 за 5,5 млн долларов, что составляет менее 1/10 стоимости обучения ChatGPT. ChatGPT потребовал огромных вычислительных ресурсов, около 100 млн долларов, и затрат на обучение.

Таблица 1. Краткое сравнение DeepSeek и ChatGPT
 

Функции ChatGPT DeepSeek
Архитектура модели Модель на основе Трансформеров Фреймворк Mixture-of-experts (MoE)
Стоимость обучения 500 миллионов долларов 12 миллионов долларов
Производительность Универсальная Оптимизирован для определенных задач
Настройка Ограниченная настройка Высокая настраиваемость для определенных приложений
Масштабируемость Масштабируемый, но ресурсоемкий Высокая масштабируемость с эффективным использованием ресурсов
Вывод на естественном языке Разговорный, удобный для пользователя Контекстный, структурированный, ориентированный на задачи

Важно понимать, что у других моделей AI есть свои козыри в рукаве. Так, прямой доступ Grok AI к данным X в реальном времени дает ему ключевое преимущество: возможность выдавать информацию о текущих событиях и тенденциях, чего не могут предложить другие решения ИИ.

6

Ограничения и критика DeepSeek

Как и другие китайские модели ИИ, такие как Ernie от Baidu и Doubao от ByteDance, DeepSeek запрограммирован избегать политически чувствительных тем. На вопросы о таких событиях, как инцидент на площади Тяньаньмэнь в 1989 году, DeepSeek отказывается отвечать, заявляя, что он предназначен для предоставления только «полезных и безвредных» ответов. Эта встроенная цензура может ограничить привлекательность DeepSeek за пределами Китая.


Рисунок 2. DeepSeek избегает политически деликатных вопросов.

Также были высказаны опасения по поводу безопасности DeepSeek. Министр науки Австралии Эд Хусик выразил сомнения по поводу приложения, подчеркнув необходимость тщательного изучения конфиденциальности данных, качества контента и предпочтений потребителей. Он посоветовал проявить осторожность, заявив, что эти вопросы требуют тщательной оценки перед широким внедрением.

С точки зрения политики конфиденциальности DeepSeek является ресурсоемким приложением с упором на коммерциализацию и потенциал для более широкого обмена данными, в том числе с рекламными партнерами. Были высказаны опасения по поводу безопасности данных и конфиденциальности, связанной с хранением данных в Китае.

Напротив, OpenAI прозрачен в отношении сбора и использования данных, уделяя больше внимания конфиденциальности пользователей, безопасности данных и анонимизации перед использованием данных для обучения ИИ.

Вот упрощенное сравнение политик конфиденциальности обоих конкурентов:

Таблица 2. Сравнение политик конфиденциальности: DeepSeek против OpenAI.

Функции DeepSeek OpenAI
Сбор данных Широкий (ввод данных пользователем, технические данные, поведение) Фокус на (ввод данных пользователем, технические данные)
Использование данных Обучение ИИ, маркетинг, реклама Обучение ИИ (с анонимизацией), безопасность, исследования
Обмен данными Обширный (партнеры, рекламодатели) Ограничено (поставщики услуг)
Пользовательский контроль Ограниченный контроль и прозрачность Больше пользовательского контроля и прозрачности
Обучение ИИ Использует данные пользователя напрямую Приоритет анонимизации и псевдонимизации
Риски для конфиденциальности Высокие: сбор данных, обмен и потенциальные риски, связанные с передачей данных в Китай Низкие: фокус на конфиденциальности пользователя и безопасности данных

Таким образом, хотя DeepSeek предлагает передовые возможности ИИ по более низкой цене, эта доступность несет как возможности, так и риски. Доступность передового ИИ сделает его доступным для злоумышленников как на государственном, так и на негосударственном уровнях, что может поставить под угрозу мировую безопасность. Необходимо найти баланс между инновациями и потенциальными геополитическими и связанными с безопасностью проблемами.

* Американская корпорация Meta Platforms и принадлежащие ей социальные сети Facebook и Instagram признаны экстремистскими и запрещены в РФ.

120
12
12
Поделись с друзьями!
Другие вопросы