Добавить
Уведомления

Learning Modality-shared Representations via CLIP Semantic Bridge

CLIP4VI-ReID: Идентификация людей видимый-инфракрасный Этот научный документ представляет CLIP4VI-ReID, новую сетевую архитектуру на основе CLIP, предназначенную для решения задачи идентификации личности по видимому и инфракрасному изображениям (VI-ReID). Авторы отмечают, что существующие методы VI-ReID испытывают трудности из-за значительного модального разрыва между видимыми (RGB) и инфракрасными изображениями, особенно при извлечении признаков с помощью предварительно обученных моделей, таких как CLIP. Предложенная модель использует трехэтапную стратегию обучения (TSG, IFE и HSA) для достижения грубого и последующего тонкого выравнивания признаков, используя семантику текста в качестве моста между модальностями. TSG генерирует семантическое описание только для видимых изображений, чтобы избежать шума от инфракрасных данных; IFE использует этот текст для коррекции встраивания инфракрасных признаков; а HSA дорабатывает выравнивание высокоуровневой семантики для улучшения различительной способности. Экспериментальные результаты показывают, что CLIP4VI-ReID превосходит современные методы на стандартных наборах данных. документ - https://arxiv.org/pdf/2511.10309v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
3 просмотра
Месяц назад
12+
3 просмотра
Месяц назад

CLIP4VI-ReID: Идентификация людей видимый-инфракрасный Этот научный документ представляет CLIP4VI-ReID, новую сетевую архитектуру на основе CLIP, предназначенную для решения задачи идентификации личности по видимому и инфракрасному изображениям (VI-ReID). Авторы отмечают, что существующие методы VI-ReID испытывают трудности из-за значительного модального разрыва между видимыми (RGB) и инфракрасными изображениями, особенно при извлечении признаков с помощью предварительно обученных моделей, таких как CLIP. Предложенная модель использует трехэтапную стратегию обучения (TSG, IFE и HSA) для достижения грубого и последующего тонкого выравнивания признаков, используя семантику текста в качестве моста между модальностями. TSG генерирует семантическое описание только для видимых изображений, чтобы избежать шума от инфракрасных данных; IFE использует этот текст для коррекции встраивания инфракрасных признаков; а HSA дорабатывает выравнивание высокоуровневой семантики для улучшения различительной способности. Экспериментальные результаты показывают, что CLIP4VI-ReID превосходит современные методы на стандартных наборах данных. документ - https://arxiv.org/pdf/2511.10309v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии