Открыть «черный ящик»: ученые научились читать мысли нейросетей

untitled design 2023 05 24t143035.526

Механизм работы нейросетей оставался закрытым даже для их создателей. Новое направление исследований впервые позволяет это изменить.

Почему нейросеть — черный ящик

Языковые модели не программируют — их обучают. В процессе обучения модель сама формирует миллиарды числовых параметров. Никто их не писал вручную и не может объяснить, что именно каждый из них делает.

CEO Anthropic Дарио Амодеи признал, что компания не понимает, как работают созданные ею модели.

Классические методы объяснимого ИИ работают снаружи: меняют входные данные, смотрят на изменения в ответах. Но они не показывают, что происходит внутри модели во время вычислений.

Как ученые заглядывают внутрь

Механистическая интерпретируемость изучает нейросети изнутри. Исследователи анализируют веса и активации, чтобы найти конкретные структуры, которые отвечают за конкретное поведение.

Два ключевых понятия в этой области.

Признак — паттерн активаций внутри модели, который соответствует конкретному понятию. Это не один нейрон, а определенная комбинация активаций — один нейрон может одновременно участвовать в десятках несвязанных понятий.

Цепочка — связанный путь признаков, который реализует конкретное вычисление. Если признаки — словарь, то цепочки — предложения из этого словаря.

Что нашли внутри Claude

Исследователи Anthropic расшифровали несколько конкретных цепочек.

Признак золотых ворот. Внутри Claude 3 Sonnet нашли паттерн активаций, который срабатывал каждый раз при обработке информации о мосте. Когда исследователи искусственно усилили этот признак, модель начала упоминать золотые ворота в каждом ответе — вне зависимости от темы.

Исследователи выяснили, как Claude Haiku решает, где сделать перенос при форматировании текста. Модель отслеживает количество символов через шестимерное пространство активаций, используя спиралевидные геометрические паттерны. Разные головы внимания отвечают за разные диапазоны расстояний. Никто этой схеме модель не учил — она возникла сама в процессе обучения.

Anthropic расшифровал полную цепочку: какие нейроны распознают цифры, какие головы внимания перемещают информацию в нужные позиции, как модель обрабатывает перенос разряда.

Как нейросеть сама открыла математику

В 2022 году исследователи обучали небольшую модель на задаче модульной арифметики. Сначала она просто запомнила правильные ответы для обучающей выборки — на новых данных точность была близка к нулю. Затем тысячи шагов обучения ничего не меняли внешне. После этого за несколько сотен итераций точность на новых данных выросла с нуля до почти 100%.

Когда исследователи изучили обученную модель, оказалось: она самостоятельно нашла решение через тригонометрические тождества и преобразования Фурье. Модель представляла каждое число через синус и косинус, вычисляла их произведения и использовала тождество косинуса суммы для получения ответа. Тригонометрии в архитектуре не было — алгоритм возник сам как наиболее эффективный способ решения задачи.

Это первый случай, когда исследователи полностью поняли, как трансформер решает реальную задачу от начала до конца.

Где сейчас граница

MIT Technology Review признал механистическую интерпретируемость прорывной технологией 2026 года. Anthropic поставила цель: к 2027 году надежно выявлять большинство проблем в поведении моделей с помощью инструментов интерпретируемости.

При этом лучшие исследователи мира с лучшими инструментами пока смогли полностью объяснить, как Claude складывает двузначные числа, делает перенос строки и подбирает рифму. Как модель рассуждает, пишет код и анализирует документы — по-прежнему неизвестно.

Разрыв между тем, что можно объяснить, и тем, что умеют современные модели, — это главный вызов для всей области.