Huawei опубликовала отчет о своей новой языковой модели Pangu Ultra — плотной архитектуре с 135 миллиардами параметров.
Особенности этой работы: 1. модель полностью обучена на 8,192 нейронных процессорах Ascend NPU от Huawei без использования GPU от NVIDIA 2. 13.2 триллиона токенов разнообразных данных 3. разработана техника "depth-scaled sandwich normalization", устраняющая скачки потерь при обучении глубоких моделей 4. поддерживает контекстное окно до 128K токенов.
По данным авторов, превосходит или не уступает другим мощным языковым моделям: - Показывает лучшие результаты, чем плотные модели Llama 405B и Mistral Large 2 на большинстве бенчмарков - Демонстрирует конкурентоспособные результаты по сравнению с более крупными разреженными MoE-моделями.