ViPRA: Video Prediction for Robot Actions
ViPRA: Видео Прогнозирование для Действий Роботов Документ представляет систему ViPRA (Video Prediction for Robot Actions), новую архитектуру для обучения роботов на основе немаркированных видеозаписей, включая кадры с людьми и телеуправляемыми роботами. Ключевым нововведением является структура претренировки-доводки, которая сначала учит видео-языковую модель совместно предсказывать будущие визуальные состояния и скрытые действия, представляющие динамику сцены. Эти скрытые действия извлекаются без аннотации с помощью перцептивных потерь и согласованности оптического потока. Затем, для управления физическим роботом, используется декодер Flow Matching для преобразования скрытых действий в плавные, высокочастотные непрерывные действия (до 22 Гц) с использованием минимального объема маркированных демонстраций. Авторы утверждают, что ViPRA превосходит существующие методы, устраняя необходимость в дорогостоящей разметке действий и обеспечивая надежную работу в симуляции и реальных условиях. документ - https://arxiv.org/pdf/2511.07732 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
ViPRA: Видео Прогнозирование для Действий Роботов Документ представляет систему ViPRA (Video Prediction for Robot Actions), новую архитектуру для обучения роботов на основе немаркированных видеозаписей, включая кадры с людьми и телеуправляемыми роботами. Ключевым нововведением является структура претренировки-доводки, которая сначала учит видео-языковую модель совместно предсказывать будущие визуальные состояния и скрытые действия, представляющие динамику сцены. Эти скрытые действия извлекаются без аннотации с помощью перцептивных потерь и согласованности оптического потока. Затем, для управления физическим роботом, используется декодер Flow Matching для преобразования скрытых действий в плавные, высокочастотные непрерывные действия (до 22 Гц) с использованием минимального объема маркированных демонстраций. Авторы утверждают, что ViPRA превосходит существующие методы, устраняя необходимость в дорогостоящей разметке действий и обеспечивая надежную работу в симуляции и реальных условиях. документ - https://arxiv.org/pdf/2511.07732 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
