Вы здесь

Huawei обучила ИИ-модель без чипов NVIDIA

Дата публикации:15.04.2025, 06:27

260

Поделись с друзьями!

Huawei опубликовала отчет о своей новой языковой модели Pangu Ultra — плотной архитектуре с 135 миллиардами параметров.

Особенности этой работы: 1. модель полностью обучена на 8,192 нейронных процессорах Ascend NPU от Huawei без использования GPU от NVIDIA 2. 13.2 триллиона токенов разнообразных данных 3. разработана техника "depth-scaled sandwich normalization", устраняющая скачки потерь при обучении глубоких моделей 4. поддерживает контекстное окно до 128K токенов.

По данным авторов, превосходит или не уступает другим мощным языковым моделям: - Показывает лучшие результаты, чем плотные модели Llama 405B и Mistral Large 2 на большинстве бенчмарков - Демонстрирует конкурентоспособные результаты по сравнению с более крупными разреженными MoE-моделями.