VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning
VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis VICoT-Agent: Фреймворк Визуально-Чередующейся Цепи Рассуждений для Интерпретируемого Мультимодального Анализа и Масштабируемой Обработки Данных Дистанционного Зондирования В этой статье представлен VICoT-Agent, новый мультимодальный фреймворк, разработанный для сложного анализа изображений дистанционного зондирования. VICoT использует подход визуально-чередующейся цепи рассуждений, динамически интегрируя визуальные инструменты в процесс рассуждений. Фреймворк включает структуру рассуждений на основе стека и модульный набор инструментов, обеспечивая эффективные многоступенчатые визуально-языковые рассуждения. Предлагается метод дистилляции стека рассуждений для переноса сложного поведения агента в небольшие модели для развертывания на периферийных устройствах. Агент интегрирует визуально-языковые инструменты, такие как обнаружение объектов, удаление облаков и супер-разрешение. Эксперименты показывают превосходную производительность VICoT в прозрачности рассуждений, эффективности выполнения и качестве генерации по сравнению с существующими фреймворками. VICoT также включает иерархическую головку визуальной декомпозиции для изображений сверхвысокого разрешения. Фреймворк направлен на улучшение автоматизации, интерпретируемости и масштабируемости анализа данных дистанционного зондирования. #ДистанционноеЗондирование #МультимодальныйИИ #ЦепьРассуждений #AIагент #АнализИзображений #ГлубокоеОбучение #VICoT документ - https://arxiv.org/pdf/2511.20085v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis VICoT-Agent: Фреймворк Визуально-Чередующейся Цепи Рассуждений для Интерпретируемого Мультимодального Анализа и Масштабируемой Обработки Данных Дистанционного Зондирования В этой статье представлен VICoT-Agent, новый мультимодальный фреймворк, разработанный для сложного анализа изображений дистанционного зондирования. VICoT использует подход визуально-чередующейся цепи рассуждений, динамически интегрируя визуальные инструменты в процесс рассуждений. Фреймворк включает структуру рассуждений на основе стека и модульный набор инструментов, обеспечивая эффективные многоступенчатые визуально-языковые рассуждения. Предлагается метод дистилляции стека рассуждений для переноса сложного поведения агента в небольшие модели для развертывания на периферийных устройствах. Агент интегрирует визуально-языковые инструменты, такие как обнаружение объектов, удаление облаков и супер-разрешение. Эксперименты показывают превосходную производительность VICoT в прозрачности рассуждений, эффективности выполнения и качестве генерации по сравнению с существующими фреймворками. VICoT также включает иерархическую головку визуальной декомпозиции для изображений сверхвысокого разрешения. Фреймворк направлен на улучшение автоматизации, интерпретируемости и масштабируемости анализа данных дистанционного зондирования. #ДистанционноеЗондирование #МультимодальныйИИ #ЦепьРассуждений #AIагент #АнализИзображений #ГлубокоеОбучение #VICoT документ - https://arxiv.org/pdf/2511.20085v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
