Добавить
Уведомления

Nested Learning: The Illusion of Deep Learning Architectures

Вложенное Обучение: Иллюзия Глубоких Архитектур Источник представляет собой научную статью с Google Research, озаглавленную "Вложенное обучение: Иллюзия глубоких архитектур обучения", которая предлагает новую парадигму машинного обучения, известную как Nested Learning (NL). Основная идея NL заключается в том, что существующие модели глубокого обучения можно когерентно представить как набор вложенных, многоуровневых или параллельных задач оптимизации, каждая из которых имеет свой собственный "поток контекста". Авторы утверждают, что NL объясняет, как глубокое обучение работает за счет сжатия собственного потока контекста, и дает объяснение, как возникает внутриконтекстное обучение в больших моделях. В статье представлены три основных вклада, основанных на NL: Deep Optimizers (Глубокие Оптимизаторы), Self-Modifying Titans (Самомодифицирующиеся Титаны) и Continuum Memory System (Система Континуальной Памяти), которые объединены в новую архитектуру под названием HOPE для улучшения языкового моделирования и непрерывного обучения. Экспериментальные результаты показывают, что модель HOPE превосходит как архитектуру Transformer, так и другие современные рекуррентные нейронные сети в задачах языкового моделирования и здравого смысла. документ - https://abehrouz.github.io/files/NL.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
10 просмотров
Месяц назад
12+
10 просмотров
Месяц назад

Вложенное Обучение: Иллюзия Глубоких Архитектур Источник представляет собой научную статью с Google Research, озаглавленную "Вложенное обучение: Иллюзия глубоких архитектур обучения", которая предлагает новую парадигму машинного обучения, известную как Nested Learning (NL). Основная идея NL заключается в том, что существующие модели глубокого обучения можно когерентно представить как набор вложенных, многоуровневых или параллельных задач оптимизации, каждая из которых имеет свой собственный "поток контекста". Авторы утверждают, что NL объясняет, как глубокое обучение работает за счет сжатия собственного потока контекста, и дает объяснение, как возникает внутриконтекстное обучение в больших моделях. В статье представлены три основных вклада, основанных на NL: Deep Optimizers (Глубокие Оптимизаторы), Self-Modifying Titans (Самомодифицирующиеся Титаны) и Continuum Memory System (Система Континуальной Памяти), которые объединены в новую архитектуру под названием HOPE для улучшения языкового моделирования и непрерывного обучения. Экспериментальные результаты показывают, что модель HOPE превосходит как архитектуру Transformer, так и другие современные рекуррентные нейронные сети в задачах языкового моделирования и здравого смысла. документ - https://abehrouz.github.io/files/NL.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии