BTC 94629$
ETH 1793.62$
Tether (USDT) 1$
Toncoin (TON) 3.26$
telegram vk
telegram vk Х
Russian English
"

В сеть слили подробности новой ИИ-модели DeepSeek R2, в 40 раз дешевле GPT-4

Дата публикации:28.04.2025, 19:45
131
131
Поделись с друзьями!

Согласно последним данным, DeepSeek готовится к выпуску своей новой модели R2, которая показывает значительные технологические прорывы по 3-м ключевым направлениям.

Революционная архитектура и эффективность - R2 использует инновационную архитектуру Hybrid MoE 3.0, которая обеспечивает 1,2 трлн динамически активируемых параметров при фактическом вычислительном потреблении всего 78 млрд параметров.

По результатам тестирования Alibaba Cloud, при обработке задач вывода длинных текстов стоимость единицы токена снижена на впечатляющие 97,3% по сравнению с GPT-4 Turbo. Самостоятельно разработанная система распределенного обучения показывает высокую эффективность на отечественном оборудовании — 82% использования кластера чипов Huawei Ascend 910B, с вычислительной мощностью 512 PetaFLOPS при точности FP16, что составляет 91% эффективности кластера NVIDIA A100 аналогичного размера. DeepSeek R2 показывает крутые результаты в мультимодальных задачах: - 92,4% точности (mAP) в сегментации объектов на датасете COCO, что на 11,6 п.п. выше модели CLIP - Уровень ложных срабатываний 7,2E-6 в промышленных системах контроля качества - 98,1% точности в диагностике заболеваний по рентгеновским снимкам грудной клетки, превосходя средний уровень экспертной группы главных радиологов (96,3%)

Модель обучена на обширном корпусе высококачественных данных объемом 5,2 ПБ, охватывающих финансы, право, патенты и другие специализированные области, что обеспечивает точность следования инструкциям до 89,7% по тестам C-Eval 2.0. DeepSeek формирует экосистему из ведущих технологических компаний Китая: Tuowei Information - основной производственный партнер экосистемы Huawei Ascend, выполняющий более 50% заказов на вычислительную инфраструктуру.

Hongbo Shares - управляет северокитайским узлом вычислений с резервом мощности более 3000P. Zhongke Shuguang - поставляет кластеры серверов с жидкостным охлаждением с плотностью мощности 40 кВт на стойку. Inspur Information - поставила более 5000 AI-серверов с гибридной архитектурой NVIDIA H800 + Ascend 910B. Runjian Shares - обслуживает южнокитайский суперкомпьютерный центр с контрактом стоимостью более 500 млн юаней в год. Xinyisheng - разработала решение CPO на основе кремниевой фотоники, снижающее энергопотребление на 35% Технология квантизации DeepSeek R2 позволяет сократить размер модели на 83% при 8-битной точности с потерей точности менее 2%, что открывает возможности для развертывания на периферийных устройствах.

Модель уже нашла применение в проектах "умных городов", промышленной автоматизации и здравоохранении.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24