Добавить
Уведомления

Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics

Неопределенность языковых моделей и динамика скрытых состояний Исследование рассматривает, как языковые модели (ЯМ) представляют альтернативные пути рассуждений во время генерации текста, фокусируясь на токен-уровневой неопределенности и динамике скрытых состояний. Авторы используют метод Forking Paths Analysis для оценки неопределенности модели относительно окончательного ответа на каждом этапе генерации. Они устанавливают, что успех управления поведением ЯМ через вмешательство в ее скрытые активации тесно коррелирует с этой токен-уровневой неопределенностью. Кроме того, исследование демонстрирует, что скрытые активации ЯМ могут предсказывать распределение будущих результатов (исходов) модели более точно, чем встраивания текста, полученные от другой модели, что предполагает, что внутренние состояния содержат информацию о процессе принятия решений. документ - http://arxiv.org/pdf/2511.04527v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
5 просмотров
Месяц назад
12+
5 просмотров
Месяц назад

Неопределенность языковых моделей и динамика скрытых состояний Исследование рассматривает, как языковые модели (ЯМ) представляют альтернативные пути рассуждений во время генерации текста, фокусируясь на токен-уровневой неопределенности и динамике скрытых состояний. Авторы используют метод Forking Paths Analysis для оценки неопределенности модели относительно окончательного ответа на каждом этапе генерации. Они устанавливают, что успех управления поведением ЯМ через вмешательство в ее скрытые активации тесно коррелирует с этой токен-уровневой неопределенностью. Кроме того, исследование демонстрирует, что скрытые активации ЯМ могут предсказывать распределение будущих результатов (исходов) модели более точно, чем встраивания текста, полученные от другой модели, что предполагает, что внутренние состояния содержат информацию о процессе принятия решений. документ - http://arxiv.org/pdf/2511.04527v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии