Добавить
Уведомления

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model

Uni-MoE-2.0-Omni: Масштабирование Мультимодальной Большой Модели, Ориентированной на Язык В документе представлена Uni-MoE-2.0-Omni, полностью открытая мультимодальная большая модель (OLM), основанная на серии Lychee. Она улучшает мультимодальное понимание, рассуждение и генерацию, используя подход, ориентированный на язык. Модель основана на архитектуре Qwen2.5-7B и включает в себя дизайн Mixture-of-Experts (MoE) с динамической емкостью, прогрессивную стратегию обучения и сопоставление мультимодальных данных. Uni-MoE-2.0-Omni способна понимать различные модальности и генерировать изображения, текст и речь. Архитектура обеспечивает баланс между вычислительной эффективностью и возможностями с использованием общих, маршрутизируемых и нулевых экспертов. Процесс обучения включает предварительное обучение между модальностями и контролируемую точную настройку. Оцененная по многочисленным тестам, Uni-MoE-2.0-Omni демонстрирует конкурентоспособную производительность, особенно в понимании видео и мультимодальности, аудиовизуальном рассуждении, обработке речи большой формы и обработке изображений. #мультимодальность #ИИ #глубокоеобучение #MoE #ОткрытыйИсходныйКод #ЯзыковаяМодель #omnimodal документ - https://arxiv.org/abs/2511.12609v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
4 просмотра
25 дней назад
12+
4 просмотра
25 дней назад

Uni-MoE-2.0-Omni: Масштабирование Мультимодальной Большой Модели, Ориентированной на Язык В документе представлена Uni-MoE-2.0-Omni, полностью открытая мультимодальная большая модель (OLM), основанная на серии Lychee. Она улучшает мультимодальное понимание, рассуждение и генерацию, используя подход, ориентированный на язык. Модель основана на архитектуре Qwen2.5-7B и включает в себя дизайн Mixture-of-Experts (MoE) с динамической емкостью, прогрессивную стратегию обучения и сопоставление мультимодальных данных. Uni-MoE-2.0-Omni способна понимать различные модальности и генерировать изображения, текст и речь. Архитектура обеспечивает баланс между вычислительной эффективностью и возможностями с использованием общих, маршрутизируемых и нулевых экспертов. Процесс обучения включает предварительное обучение между модальностями и контролируемую точную настройку. Оцененная по многочисленным тестам, Uni-MoE-2.0-Omni демонстрирует конкурентоспособную производительность, особенно в понимании видео и мультимодальности, аудиовизуальном рассуждении, обработке речи большой формы и обработке изображений. #мультимодальность #ИИ #глубокоеобучение #MoE #ОткрытыйИсходныйКод #ЯзыковаяМодель #omnimodal документ - https://arxiv.org/abs/2511.12609v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии