DeepSeek представила новое, третье поколение своей языковой модели, что является значительным достижением компании:
1. Высокая производительность:
-
Скорость обработки увеличена втрое по сравнению с предыдущей версией: модель способна обрабатывать до 60 токенов в секунду.
-
Масштабируемая архитектура: модель включает 671 миллиард параметров благодаря использованию передовых технологий Mixture of Experts (MoE).
-
Обучение проводилось на основе 14.8 триллионов высококачественных токенов данных.
2. Доступность и интеграция:
-
Исходный код модели и сопутствующие исследования полностью открыты для использования.
-
Привлекательные условия ценообразования: стоимость составляет всего $0.27 за каждый миллион входных токенов.
-
Поддерживается полная совместимость с предыдущими версиями API, что облегчает интеграцию.
-
DeepSeek заняла лидирующую позицию в рейтинге BigCode Bench-Hard.
-
Показатели модели превосходят результаты Claude 3.5 Sonnet на тесте Aider.