Компания NVIDIA провела эксперимент по автоматической генерации ядер GPU с использованием языковой модели DeepSeek-R1, что позволило достичь уровня производительности, превосходящего результаты ручной оптимизации в ряде случаев.
Основные выводы:
-
Искусственный интеллект впервые продемонстрировал способность превзойти человека в области низкоуровневой оптимизации GPU.
-
Для реализации данной технологии требуются значительные вычислительные ресурсы и время.
-
Данная разработка не является заменой труда программиста, а представляет собой новый инструмент автоматизации.
Достижения технического характера:
-
Обеспечена 100%-ная точность на уровне Level-1 KernelBench для 100 базовых операций PyTorch.
-
В сравнении с FlexAttention удалось добиться ускорения выполнения ряда операций до 2,1 раза.
-
Применён метод inference-time scaling с замкнутым циклом верификации.
-
Время генерации оптимальных решений составляет 10–20 минут на базе GPU H100.
Бизнес-перспективы:
-
Возможное сокращение сроков разработки оптимизированных решений для GPU.
-
Снижение зависимости от квалифицированных инженеров по работе с GPU.
-
Автоматизация отдельных этапов процесса оптимизации производительности.
-
Ожидаемый возврат инвестиций (ROI): ускоренная разработка при наличии соответствующего оборудования.
Эксперимент подтверждает как технический прогресс, так и намечающийся тренд к более глубокой интеграции искусственного интеллекта в разработку низкоуровневого ПО. Несмотря на то, что полная автоматизация остаётся перспективной задачей, этот проект стал важным шагом в создании инструментов разработки нового поколения.