Google DeepMind выпустили исследование о безопасности AGI, совмещая теоретический анализ с конкретными техническими решениями. Исследователи говорят, что: 1. AGI может появиться к 2030 году.
Сегодняшние модели ИИ ещё не достигли опасного уровня возможностей. 2. Нет фундаментальных ограничений на превосходство ИИ над человеком. 3. Возможен сценарий ускоренного развития - это, когда ИИ автоматизирует исследования → создаются лучшие ИИ → еще больше автоматизации. Авторы отмечают, что это создает свои проблемы, поскольку нам нужно быть уверенными, что системы ИИ, работающие над безопасностью, сами безопасны и согласованы с нашими целями.
Центральным моментом работы является обоснование перехода от традиционной модели "наблюдать и смягчать" к превентивному подходу. Авторы также указывают, что внутренние алгоритмы "обмана" и "честного поведения" должны различаться, и интерпретируемость может помочь распознать эти различия. Это потенциально критический инструмент для проверки согласованности.