Добавить
Уведомления

Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models

Раскрытие Внутренней Способности Визуального Представления Мультимодальных Больших Языковых Моделей Мультимодальные большие языковые модели (MLLM) демонстрируют высокую эффективность, но сталкиваются с проблемой «модального дисбаланса». Эта проблема возникает из-за недостаточного использования визуальной информации по сравнению с текстовыми представлениями в глубоких слоях, что приводит к ухудшению визуальной производительности и галлюцинациям. Основная причина заключается в том, что парадигма обучения MLLM в основном ориентирована на предсказание следующего текстового токена, без прямых сигналов визуального контроля, что вызывает прогрессивную гомогенизацию визуальных представлений. Для решения этой задачи предложена новая платформа обучения Latent Visual Reconstruction (LaVer). LaVer использует маскированное моделирование изображений в совместном латентном семантическом пространстве большой языковой модели. Маскируя и восстанавливая визуальные токены в латентном пространстве, LaVer обеспечивает прямую визуальную активацию и способствует формированию более дискриминативных визуальных представлений. Обширные эксперименты на различных бенчмарках подтверждают превосходство подхода LaVer, особенно в задачах, требующих высокой плотности визуальных данных, за счет увеличения внимания к визуальной информации и предотвращения гомогенизации представлений. #MLLM #МультимодальныйИИ #ЛатентнаяВизуальнаяРеконструкция #LaVer #КомпьютерноеЗрение #ОбработкаЕстественногоЯзыка #ГлубокоеОбучение #ИсследованияИИ документ - https://arxiv.org/pdf/2512.06281v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
2 просмотра
2 дня назад
12+
2 просмотра
2 дня назад

Раскрытие Внутренней Способности Визуального Представления Мультимодальных Больших Языковых Моделей Мультимодальные большие языковые модели (MLLM) демонстрируют высокую эффективность, но сталкиваются с проблемой «модального дисбаланса». Эта проблема возникает из-за недостаточного использования визуальной информации по сравнению с текстовыми представлениями в глубоких слоях, что приводит к ухудшению визуальной производительности и галлюцинациям. Основная причина заключается в том, что парадигма обучения MLLM в основном ориентирована на предсказание следующего текстового токена, без прямых сигналов визуального контроля, что вызывает прогрессивную гомогенизацию визуальных представлений. Для решения этой задачи предложена новая платформа обучения Latent Visual Reconstruction (LaVer). LaVer использует маскированное моделирование изображений в совместном латентном семантическом пространстве большой языковой модели. Маскируя и восстанавливая визуальные токены в латентном пространстве, LaVer обеспечивает прямую визуальную активацию и способствует формированию более дискриминативных визуальных представлений. Обширные эксперименты на различных бенчмарках подтверждают превосходство подхода LaVer, особенно в задачах, требующих высокой плотности визуальных данных, за счет увеличения внимания к визуальной информации и предотвращения гомогенизации представлений. #MLLM #МультимодальныйИИ #ЛатентнаяВизуальнаяРеконструкция #LaVer #КомпьютерноеЗрение #ОбработкаЕстественногоЯзыка #ГлубокоеОбучение #ИсследованияИИ документ - https://arxiv.org/pdf/2512.06281v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии