Добавить
Уведомления

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-V3.2: Расширение границ открытых больших языковых моделей В этом документе представлена DeepSeek-V3.2, новая большая языковая модель, ориентированная на повышение вычислительной эффективности и возможностей рассуждения. Ключевой инновацией является механизм DeepSeek Sparse Attention (DSA), разработанный для снижения вычислительной сложности при сохранении производительности в сценариях с длинным контекстом. Модель также использует масштабируемую структуру обучения с подкреплением. Сообщается, что высокопроизводительный вариант, DeepSeek-V3.2-Speciale, превосходит GPT-5 и соответствует Gemini-3.0-Pro в задачах рассуждения. Кроме того, был разработан конвейер синтеза агентских задач в большом масштабе для улучшения использования инструментов. DeepSeek-V3.2 демонстрирует профессионализм в различных тестах, включая математические олимпиады. Архитектура предусматривает использование той же архитектуры, что и DeepSeek-V3.2-Exp, и DeepSeek Sparse Attention (DSA) для DeepSeek-V3.2. #DeepSeek #LLM #AI #РазреженноеВнимание #ОбучениесПодкреплением #АгентныеЗадачи #ОткрытыйИсходныйКод документ - https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
8 дней назад
12+
8 дней назад

DeepSeek-V3.2: Расширение границ открытых больших языковых моделей В этом документе представлена DeepSeek-V3.2, новая большая языковая модель, ориентированная на повышение вычислительной эффективности и возможностей рассуждения. Ключевой инновацией является механизм DeepSeek Sparse Attention (DSA), разработанный для снижения вычислительной сложности при сохранении производительности в сценариях с длинным контекстом. Модель также использует масштабируемую структуру обучения с подкреплением. Сообщается, что высокопроизводительный вариант, DeepSeek-V3.2-Speciale, превосходит GPT-5 и соответствует Gemini-3.0-Pro в задачах рассуждения. Кроме того, был разработан конвейер синтеза агентских задач в большом масштабе для улучшения использования инструментов. DeepSeek-V3.2 демонстрирует профессионализм в различных тестах, включая математические олимпиады. Архитектура предусматривает использование той же архитектуры, что и DeepSeek-V3.2-Exp, и DeepSeek Sparse Attention (DSA) для DeepSeek-V3.2. #DeepSeek #LLM #AI #РазреженноеВнимание #ОбучениесПодкреплением #АгентныеЗадачи #ОткрытыйИсходныйКод документ - https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии